Показать метаданные Скрыть метаданные

(19)

(11)

2 821 442

(13)

(51)

МПК

G06F16/13(2019-01-01)

G06F21/10(2013-01-01)

(21) (22)

Заявка

2024101802, 2024-01-25

(24)

Дата начала отсчета патента

2024-01-25

(22)

дата подачи заявки

2024-01-25

(45)

опубликовано

2024-06-24

(72)

авторы

Рябов Сергей СергеевичХапова Любовь СергеевнаКлевцов Александр Анатольевич

(73)

патентообладатели

Общество С Ограниченной Ответственностью Инфовотч"

(56)

Документы, цитированные в отчете о поиске

US 20200302081 A1, 24.09.2020US 20190347429 A1, 14.11.2019US 9971809 B1, 15.05.2018.

СПОСОБ АВТОМАТИЧЕСКОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ Российский патент 2024 года по МПК G06F16/13 G06F21/10

Описание патента на изобретение RU2821442C1

Изобретение относится к области информационных технологий, а именно к области автоматического анализа данных средствами программ для ЭВМ, и может быть использовано для автоматического анализа выгрузок из баз данных и защиты их от несанкционированной передачи.

Известен способ формирования и структурирования электронной базы данных. Данные организуют в таблицу или таблицы с необходимой структурой, которая содержит, по крайней мере, один столбец для конечного идентификатора числовых значений и/или индекса, однозначно указывающего на конечный идентификатор числовых значений. Создают таблицу, содержащую, по крайней мере, один столбец, и формируют в строках, по крайней мере, два базовых элемента идентификатора, один из которых определяет вид числового значения идентификатора. Используют таблицу с добавлением, по крайней мере, одного столбца или создают другую таблицу, содержащую, по крайней мере, два столбца, и формируют в строках одной из указанных таблиц предварительный идентификатор, основанный на базовых элементах идентификатора таким образом, чтобы строки отражали состав предварительного идентификатора в виде отношения один предварительный идентификатор ко многим базовым элементам. Посредством конкатенации предварительного идентификатора с разделителем и/или с базовым элементом идентификатора генерируют конечный идентификатор, основанный на значениях базовых элементов идентификатора, так чтобы, по крайней мере, один из них определял вид числового значения. На основе сгенерированных конечных идентификаторов формируют строки таблицы или таблиц, чем закрепляют числовые значения за конечными идентификаторами в виде отношения один конечный идентификатор ко многим числовым значениям, позволяющего определить их прямую взаимосвязь с объектом идентификации (по патенту RU2696295, кл. G06F 16/22, G06F 16/901, опубл. 01.08.19).

Наиболее близким техническим решением является способ автоматизированного анализа выгрузок из баз данных, в котором преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке, задают именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки, сохраняют преобразованные строки эталонных выгрузок и именованные условия на запоминающем устройстве, выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа, составляют матрицу найденных ячеек, применяют заданные именованные условия к матрице найденных ячеек, составляют список условий, которым соответствует матрица найденных ячеек, выносят вердикт о том, присутствует ли в анализируемом документе часть эталонной выгрузки, удовлетворяющей заданным именованным условиям (по патенту RU2546583, кл. G06F 17/30, опубл. 10.04.15).

Недостатком известных решений является недостаточная защита информации, хранящейся в базе данных, связанная с невозможностью автоматического выявления нарушения доступа к защищенным данным и блокировки их отправки.

Технический результат, на достижение которого направлено предлагаемое изобретение, заключается в автоматическом выявлении нарушений доступа к защищаемым данным и пресечении их неправомерной передачи.

Указанный технический результат достигается тем, что способ автоматического анализа выгрузок из баз данных реализуется программно-аппаратным комплексом с помощью специального программного обеспечения и заключается в предварительной подготовке эталонных выгрузок из базы данных, состоящих из строк и столбцов, пересечение которых образует ячейки, все информационно-значимые ячейки эталонной выгрузки из базы данных преобразуются в заранее заданный формат с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам; затем задаются именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки; после чего на запоминающем устройстве сохраняются преобразованные строки эталонных выгрузок и именованные условия, причем в совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных; далее выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа и составляется матрица найденных ячеек; заданные именованные условия применяются к матрице найденных ячеек, и составляется список условий, которым соответствует матрица найденных ячеек; после этого выносится заключение о наличии в анализируемом документе части эталонной выгрузки, удовлетворяющей заданным именованным условиям на основании упомянутого списка условий, и отличается тем, что эталонная выгрузка содержит один или несколько дополнительных столбцов, которые не участвуют в анализе документов, дополнительные столбцы маркируют найденные строки определенным идентификатором (ключом), который относит части выгрузки из эталонной базы данных к заранее определенным группам информации и позволяет осуществлять автоматическую блокировку передачи этих групп информации, найденных в анализируемых документах, при не соблюдении заданных условий.

Настоящее изобретение может быть реализовано при помощи любого программно-аппаратного комплекса, например, персонального компьютера и т.п.

Способ автоматического анализа выгрузок из баз данных реализуется поэтапно. Прежде чем произвести автоматический анализ выгрузок из баз данных, необходимо подготовить эталонные данные для выгрузок. Эталонная выгрузка из базы данных состоит из строк и столбцов, пересечение которых образует ячейки. Все информационно-значимые ячейки эталонных выгрузок из базы данных преобразуют в заранее заданный формат с указанием их позиций в каждой выгрузке и задают именные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки. Каждая выгрузка состоит из набора ячеек, скомпонованных по строкам. Прежде всего, нужно выявить взаимосвязь между ячейками в одной строке. Это реализовано в связи с тем, что нет необходимости в защите данных только из одной ячейки, чаще всего данные становятся секретной информацией только в совокупности с данными из других ячеек данной выгрузки. Для описания таких взаимосвязей вводятся именованные условия. Так как связи между ячейками могут быть многовариантными, а также с целью экономии ресурсов, именованных условий может быть несколько. Также в эталонной выгрузке появляется один или несколько дополнительных столбцов, которые не будут участвовать в анализе документов. Дополнительные столбцы маркируют найденные строки определенным идентификатором (ключом), который относит части выгрузки из эталонной базы данных к заранее определенным группам информации.

Преобразованные строки эталонной выгрузки, а также именованные условия и идентификатор сохраняются на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных.

В именованных условиях должны быть заданы отношения между столбцами в одной строке. В простейшем случае это может быть условие присутствия в строке всех ячеек. Также в условии указывается минимальное число строк, при нахождении которого считается, что условие выполнено. Кроме того, задается рейтинг условия, чем выше рейтинг, тем более критичным считается условие. Сработавшее условие с наивысшим рейтингом останавливает анализ для текущего эталона. Рейтинг также является идентификатором условия.

Следующий этап настоящего изобретения заключается в том, что выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа. Производится анализ того, содержит ли электронный документ часть эталонной выгрузки или нет. Далее составляют матрицу найденных ячеек. Основной целью данного этапа является создание n-мерной матрицы, в которой каждая ячейка представляет собой проекцию ячейки эталонной выгрузки в бинарное поле. Если ячейка данной матрицы соответствует значению «истина», то это значит, что данная ячейка присутствует в анализируемом документе.

Идентификатор обеспечивает отнесение части выгрузки из эталонной базы данных к заранее определенным группам информации. Если какая-либо из этих групп будет найдена в анализируемом документе, то отправка этого документа будет заблокирована при не соблюдении заданных условий.

Применение.

Предложенный способ может быть использован для защиты от несанкционированной передачи персональных данных (ПД) на предприятии, где есть система кадрового учета, в которой хранятся данные работников этого предприятия. В соответствии с Трудовым кодексом РФ работодатель не должен сообщать ПД работника третьей стороне без письменного согласия работника. Соответственно, у предприятия появляется риск того, что информация из системы кадрового учета может быть направлена не самому работнику, а третьему лицу, согласие на передачу которому работник не давал. Такая передача приведет к нарушению работодателем законодательства о персональных данных. Неправомерной передачей информации может быть, например, переписка по электронной почте, в которой персональные данные работника о его заработной плате могут быть переданы другим работникам в рамках одного предприятия (случайная несанкционированная передача).

Пресечение такой несанкционированной передачи осуществляется следующим образом:

Данные о сотрудниках из системы кадрового учета загружаются в модуль анализа табличных выгрузок баз данных (далее - Модуль). Для каждого сотрудника указываются данные, которые позволяют однозначно идентифицировать владельца ПД, например, ФИО, табельный номер, номер паспорта гражданина РФ, ИНН, телефон, адрес проживания и др., также выгружается идентификатор, в данном случае это корпоративный email сотрудника, который является владельцем ПД. Из загружаемых данных формируется индекс (все данные плюс идентификатор).

После этого каждое письмо в корпоративной переписке проверяется на наличие ПД сотрудников и, если определен владелец ПД и хотя бы один получатель не совпадает с email владельца ПД, который указан в идентификаторе, передача такого письма будет заблокирована.

Необходимо отметить два нюанса:

1. Проверяемые данные - это любой неструктурированный и неформализованный текст, т.е. ПД сотрудника могут содержаться как в самом теле письма, так и в любом вложении, с разной структурой и разным форматом документа.

2. Во время проверки писем на наличие ПД модуль уже не обращается к системе кадрового учета, а только к своему сформированному индексу. Это позволяет обеспечить производительность для проверки одного письма менее 1/10 сек, что в свою очередь обеспечивает контроль всей корпоративной переписки, которая может достигать сотни тысяч писем в сутки.

Следует отметить, что приведенный в описании идентификатор для маркирования эталонной выгрузки из базы данных может быть различным, что не ограничивает объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.

Таким образом, предложенный в изобретении способ обеспечивает автоматическое выявление нарушений доступа к защищаемым данным и пресечение их неправомерной передачи и тем самым обеспечивает достижение технического результата.

Реферат патента 2024 года СПОСОБ АВТОМАТИЧЕСКОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ

Изобретение относится к области вычислительной техники. Технический результат заключается в автоматическом выявлении нарушений доступа к защищаемым данным и пресечении их неправомерной передачи. Технический результат достигается за счет предварительной подготовки эталонных выгрузок из базы данных. Все информационно-значимые ячейки эталонной выгрузки из базы данных преобразуются в заранее заданный формат с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам. Задаются именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки. Далее выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа, составляется матрица найденных ячеек. Заданные именованные условия применяются к матрице найденных ячеек и составляется список условий, которым соответствует матрица найденных ячеек. После этого выносится заключение о наличии в анализируемом документе части эталонной выгрузки. При этом эталонная выгрузка содержит один или несколько дополнительных столбцов, которые не участвуют в анализе документов. Дополнительные столбцы маркируют найденные строки определенным идентификатором, который относит части выгрузки из эталонной базы данных к заранее определенным группам информации и позволяет осуществлять автоматическую блокировку передачи этих групп информации, найденных в анализируемых документах, при несоблюдении заданных условий.

Формула изобретения RU 2 821 442 C1

Способ автоматического анализа выгрузок из баз данных, реализуемый программно-аппаратным комплексом с помощью специального программного обеспечения и заключающийся в предварительной подготовке эталонных выгрузок из базы данных, состоящих из строк и столбцов, пересечение которых образует ячейки, все информационно-значимые ячейки эталонной выгрузки из базы данных преобразуются в заранее заданный формат с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам; затем задаются именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки; после чего на запоминающем устройстве сохраняются преобразованные строки эталонных выгрузок и именованные условия, причем в совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных; далее выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа и составляется матрица найденных ячеек; заданные именованные условия применяются к матрице найденных ячеек и составляется список условий, которым соответствует матрица найденных ячеек; после этого выносится заключение о наличии в анализируемом документе части эталонной выгрузки, удовлетворяющей заданным именованным условиям на основании упомянутого списка условий, отличающийся тем, что эталонная выгрузка содержит один или несколько дополнительных столбцов, которые не участвуют в анализе документов, дополнительные столбцы маркируют найденные строки определенным идентификатором, который относит части выгрузки из эталонной базы данных к заранее определенным группам информации и позволяет осуществлять автоматическую блокировку передачи этих групп информации, найденных в анализируемых документах, при несоблюдении заданных условий.

Документы, цитированные в отчете о поиске Патент 2024 года RU2821442C1

СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ	2013	Пшехотская Екатерина Александровна Рябов Сергей Сергеевич	RU2546583C2
Способ формирования и структурирования электронной базы данных	2018	Морозов Алексей Викторович	RU2696295C1
US 20200302081 A1, 24.09.2020
US 20190347429 A1, 14.11.2019
US 9971809 B1, 15.05.2018.

RU 2 821 442 C1

Авторы

Рябов Сергей Сергеевич

Хапова Любовь Сергеевна

Клевцов Александр Анатольевич

Даты

2024-06-24—Публикация

2024-01-25—Подача

название	год	авторы	номер документа
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ	2013	Пшехотская Екатерина Александровна Рябов Сергей Сергеевич	RU2546583C2
Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных	2019	Даньщин Георгий Андреевич Реушкин Виктор Викторович Сидоров Александр Алексеевич	RU2711717C1
СПОСОБ И СИСТЕМА ВЫЯВЛЕНИЯ КОНФИДЕНЦИАЛЬНЫХ ДАННЫХ	2023	Шаброва Анастасия Игоревна Бабак Никита Григорьевич Белорыбкин Леонид Юрьевич Теренин Алексей Алексеевич	RU2838508C2
СПОСОБ ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ	2015	Рябоконь Владимир Владимирович Лебеденко Евгений Викторович	RU2601191C1
Система предотвращения утечки информации и способ предотвращения утечки информации	2024	Касперская Наталья Ивановна Акиньшин Вячеслав Александрович Валиков Кирилл Вадимович Габдуллин Ильшат Рифович Глушенков Николай Николаевич Ефременко Роман Сергеевич Клевцов Александр Анатольевич Компанеец Виталий Александрович Кононенко Вадим Вячеславович Кубасов Сергей Андреевич Кузёкин Андрей Александрович Лазарев Станислав Владимирович Насонов Александр Анатольевич Пойманов Андрей Сергеевич Полупан Вадим Владимирович Попов Сергей Геннадьевич Прокудин Александр Николаевич Рябов Сергей Сергеевич Тавадов Борис Робертович Хапова Любовь Сергеевна Шустиков Дмитрий Александрович	RU2830388C1
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ	2013	Пшехотская Екатерина Александровна Рябов Сергей Сергеевич	RU2581766C2
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ	2011	Лапшин Владимир Анатольевич Пшехотская Екатерина Александровна Перов Дмитрий Всеволодович	RU2474870C1
Способ обработки поисковых запросов для нескольких реляционных баз данных произвольной структуры	2019	Большаков Дмитрий Николаевич Кузин Роман Валерьевич Гаврилова Ольга Анатольевна Ховрич Мария Александровна	RU2730241C1
Способ контроля состояния логической структуры сети связи	2018	Бречко Александр Александрович Вершенник Алексей Васильевич Львова Наталья Владиславовна Стародубцев Юрий Иванович Чеснаков Михаил Николаевич Ахмадиев Ильяс Ражабович	RU2672137C1
Способ организации поиска документов в прикладных базах неструктурированных данных и аппаратная версия двойной памяти для его осуществления	2022	Кулмагамбетов Ануар Райханович	RU2792584C1