Изобретение относится к области информационных технологий, а именно к области автоматического анализа данных средствами программ для ЭВМ, и может быть использовано для автоматического анализа выгрузок из баз данных и защиты их от несанкционированной передачи.
Известен способ формирования и структурирования электронной базы данных. Данные организуют в таблицу или таблицы с необходимой структурой, которая содержит, по крайней мере, один столбец для конечного идентификатора числовых значений и/или индекса, однозначно указывающего на конечный идентификатор числовых значений. Создают таблицу, содержащую, по крайней мере, один столбец, и формируют в строках, по крайней мере, два базовых элемента идентификатора, один из которых определяет вид числового значения идентификатора. Используют таблицу с добавлением, по крайней мере, одного столбца или создают другую таблицу, содержащую, по крайней мере, два столбца, и формируют в строках одной из указанных таблиц предварительный идентификатор, основанный на базовых элементах идентификатора таким образом, чтобы строки отражали состав предварительного идентификатора в виде отношения один предварительный идентификатор ко многим базовым элементам. Посредством конкатенации предварительного идентификатора с разделителем и/или с базовым элементом идентификатора генерируют конечный идентификатор, основанный на значениях базовых элементов идентификатора, так чтобы, по крайней мере, один из них определял вид числового значения. На основе сгенерированных конечных идентификаторов формируют строки таблицы или таблиц, чем закрепляют числовые значения за конечными идентификаторами в виде отношения один конечный идентификатор ко многим числовым значениям, позволяющего определить их прямую взаимосвязь с объектом идентификации (по патенту RU2696295, кл. G06F 16/22, G06F 16/901, опубл. 01.08.19).
Наиболее близким техническим решением является способ автоматизированного анализа выгрузок из баз данных, в котором преобразуют в заранее заданный формат все информационно-значимые ячейки эталонных выгрузок из базы данных с указанием их позиций в каждой выгрузке, задают именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки, сохраняют преобразованные строки эталонных выгрузок и именованные условия на запоминающем устройстве, выявляют ячейки эталонных выгрузок в электронном файле анализируемого документа, составляют матрицу найденных ячеек, применяют заданные именованные условия к матрице найденных ячеек, составляют список условий, которым соответствует матрица найденных ячеек, выносят вердикт о том, присутствует ли в анализируемом документе часть эталонной выгрузки, удовлетворяющей заданным именованным условиям (по патенту RU2546583, кл. G06F 17/30, опубл. 10.04.15).
Недостатком известных решений является недостаточная защита информации, хранящейся в базе данных, связанная с невозможностью автоматического выявления нарушения доступа к защищенным данным и блокировки их отправки.
Технический результат, на достижение которого направлено предлагаемое изобретение, заключается в автоматическом выявлении нарушений доступа к защищаемым данным и пресечении их неправомерной передачи.
Указанный технический результат достигается тем, что способ автоматического анализа выгрузок из баз данных реализуется программно-аппаратным комплексом с помощью специального программного обеспечения и заключается в предварительной подготовке эталонных выгрузок из базы данных, состоящих из строк и столбцов, пересечение которых образует ячейки, все информационно-значимые ячейки эталонной выгрузки из базы данных преобразуются в заранее заданный формат с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам; затем задаются именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки; после чего на запоминающем устройстве сохраняются преобразованные строки эталонных выгрузок и именованные условия, причем в совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных; далее выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа и составляется матрица найденных ячеек; заданные именованные условия применяются к матрице найденных ячеек, и составляется список условий, которым соответствует матрица найденных ячеек; после этого выносится заключение о наличии в анализируемом документе части эталонной выгрузки, удовлетворяющей заданным именованным условиям на основании упомянутого списка условий, и отличается тем, что эталонная выгрузка содержит один или несколько дополнительных столбцов, которые не участвуют в анализе документов, дополнительные столбцы маркируют найденные строки определенным идентификатором (ключом), который относит части выгрузки из эталонной базы данных к заранее определенным группам информации и позволяет осуществлять автоматическую блокировку передачи этих групп информации, найденных в анализируемых документах, при не соблюдении заданных условий.
Настоящее изобретение может быть реализовано при помощи любого программно-аппаратного комплекса, например, персонального компьютера и т.п.
Способ автоматического анализа выгрузок из баз данных реализуется поэтапно. Прежде чем произвести автоматический анализ выгрузок из баз данных, необходимо подготовить эталонные данные для выгрузок. Эталонная выгрузка из базы данных состоит из строк и столбцов, пересечение которых образует ячейки. Все информационно-значимые ячейки эталонных выгрузок из базы данных преобразуют в заранее заданный формат с указанием их позиций в каждой выгрузке и задают именные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки. Каждая выгрузка состоит из набора ячеек, скомпонованных по строкам. Прежде всего, нужно выявить взаимосвязь между ячейками в одной строке. Это реализовано в связи с тем, что нет необходимости в защите данных только из одной ячейки, чаще всего данные становятся секретной информацией только в совокупности с данными из других ячеек данной выгрузки. Для описания таких взаимосвязей вводятся именованные условия. Так как связи между ячейками могут быть многовариантными, а также с целью экономии ресурсов, именованных условий может быть несколько. Также в эталонной выгрузке появляется один или несколько дополнительных столбцов, которые не будут участвовать в анализе документов. Дополнительные столбцы маркируют найденные строки определенным идентификатором (ключом), который относит части выгрузки из эталонной базы данных к заранее определенным группам информации.
Преобразованные строки эталонной выгрузки, а также именованные условия и идентификатор сохраняются на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных.
В именованных условиях должны быть заданы отношения между столбцами в одной строке. В простейшем случае это может быть условие присутствия в строке всех ячеек. Также в условии указывается минимальное число строк, при нахождении которого считается, что условие выполнено. Кроме того, задается рейтинг условия, чем выше рейтинг, тем более критичным считается условие. Сработавшее условие с наивысшим рейтингом останавливает анализ для текущего эталона. Рейтинг также является идентификатором условия.
Следующий этап настоящего изобретения заключается в том, что выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа. Производится анализ того, содержит ли электронный документ часть эталонной выгрузки или нет. Далее составляют матрицу найденных ячеек. Основной целью данного этапа является создание n-мерной матрицы, в которой каждая ячейка представляет собой проекцию ячейки эталонной выгрузки в бинарное поле. Если ячейка данной матрицы соответствует значению «истина», то это значит, что данная ячейка присутствует в анализируемом документе.
Идентификатор обеспечивает отнесение части выгрузки из эталонной базы данных к заранее определенным группам информации. Если какая-либо из этих групп будет найдена в анализируемом документе, то отправка этого документа будет заблокирована при не соблюдении заданных условий.
Применение.
Предложенный способ может быть использован для защиты от несанкционированной передачи персональных данных (ПД) на предприятии, где есть система кадрового учета, в которой хранятся данные работников этого предприятия. В соответствии с Трудовым кодексом РФ работодатель не должен сообщать ПД работника третьей стороне без письменного согласия работника. Соответственно, у предприятия появляется риск того, что информация из системы кадрового учета может быть направлена не самому работнику, а третьему лицу, согласие на передачу которому работник не давал. Такая передача приведет к нарушению работодателем законодательства о персональных данных. Неправомерной передачей информации может быть, например, переписка по электронной почте, в которой персональные данные работника о его заработной плате могут быть переданы другим работникам в рамках одного предприятия (случайная несанкционированная передача).
Пресечение такой несанкционированной передачи осуществляется следующим образом:
Данные о сотрудниках из системы кадрового учета загружаются в модуль анализа табличных выгрузок баз данных (далее - Модуль). Для каждого сотрудника указываются данные, которые позволяют однозначно идентифицировать владельца ПД, например, ФИО, табельный номер, номер паспорта гражданина РФ, ИНН, телефон, адрес проживания и др., также выгружается идентификатор, в данном случае это корпоративный email сотрудника, который является владельцем ПД. Из загружаемых данных формируется индекс (все данные плюс идентификатор).
После этого каждое письмо в корпоративной переписке проверяется на наличие ПД сотрудников и, если определен владелец ПД и хотя бы один получатель не совпадает с email владельца ПД, который указан в идентификаторе, передача такого письма будет заблокирована.
Необходимо отметить два нюанса:
1. Проверяемые данные - это любой неструктурированный и неформализованный текст, т.е. ПД сотрудника могут содержаться как в самом теле письма, так и в любом вложении, с разной структурой и разным форматом документа.
2. Во время проверки писем на наличие ПД модуль уже не обращается к системе кадрового учета, а только к своему сформированному индексу. Это позволяет обеспечить производительность для проверки одного письма менее 1/10 сек, что в свою очередь обеспечивает контроль всей корпоративной переписки, которая может достигать сотни тысяч писем в сутки.
Следует отметить, что приведенный в описании идентификатор для маркирования эталонной выгрузки из базы данных может быть различным, что не ограничивает объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.
Таким образом, предложенный в изобретении способ обеспечивает автоматическое выявление нарушений доступа к защищаемым данным и пресечение их неправомерной передачи и тем самым обеспечивает достижение технического результата.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ | 2013 |
|
RU2546583C2 |
Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных | 2019 |
|
RU2711717C1 |
СПОСОБ ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ | 2015 |
|
RU2601191C1 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ | 2013 |
|
RU2581766C2 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ | 2011 |
|
RU2474870C1 |
Способ обработки поисковых запросов для нескольких реляционных баз данных произвольной структуры | 2019 |
|
RU2730241C1 |
Способ контроля состояния логической структуры сети связи | 2018 |
|
RU2672137C1 |
Способ организации поиска документов в прикладных базах неструктурированных данных и аппаратная версия двойной памяти для его осуществления | 2022 |
|
RU2792584C1 |
УСТРОЙСТВО, СИСТЕМЫ И СПОСОБЫ ПОДСЧЕТА ЧАСТИЦ | 2020 |
|
RU2811341C2 |
Способ автоматизированного анализа векторных изображений | 2016 |
|
RU2633156C1 |
Изобретение относится к области вычислительной техники. Технический результат заключается в автоматическом выявлении нарушений доступа к защищаемым данным и пресечении их неправомерной передачи. Технический результат достигается за счет предварительной подготовки эталонных выгрузок из базы данных. Все информационно-значимые ячейки эталонной выгрузки из базы данных преобразуются в заранее заданный формат с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам. Задаются именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки. Далее выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа, составляется матрица найденных ячеек. Заданные именованные условия применяются к матрице найденных ячеек и составляется список условий, которым соответствует матрица найденных ячеек. После этого выносится заключение о наличии в анализируемом документе части эталонной выгрузки. При этом эталонная выгрузка содержит один или несколько дополнительных столбцов, которые не участвуют в анализе документов. Дополнительные столбцы маркируют найденные строки определенным идентификатором, который относит части выгрузки из эталонной базы данных к заранее определенным группам информации и позволяет осуществлять автоматическую блокировку передачи этих групп информации, найденных в анализируемых документах, при несоблюдении заданных условий.
Способ автоматического анализа выгрузок из баз данных, реализуемый программно-аппаратным комплексом с помощью специального программного обеспечения и заключающийся в предварительной подготовке эталонных выгрузок из базы данных, состоящих из строк и столбцов, пересечение которых образует ячейки, все информационно-значимые ячейки эталонной выгрузки из базы данных преобразуются в заранее заданный формат с указанием их позиций в каждой выгрузке, причем каждая выгрузка состоит из набора ячеек, скомпонованных по строкам; затем задаются именованные условия, указывающие на взаимоотношения между ячейками в одной строке выгрузки; после чего на запоминающем устройстве сохраняются преобразованные строки эталонных выгрузок и именованные условия, причем в совокупности эти данные образуют цифровой отпечаток эталонной выгрузки из базы данных; далее выявляются ячейки эталонных выгрузок в электронном файле анализируемого документа и составляется матрица найденных ячеек; заданные именованные условия применяются к матрице найденных ячеек и составляется список условий, которым соответствует матрица найденных ячеек; после этого выносится заключение о наличии в анализируемом документе части эталонной выгрузки, удовлетворяющей заданным именованным условиям на основании упомянутого списка условий, отличающийся тем, что эталонная выгрузка содержит один или несколько дополнительных столбцов, которые не участвуют в анализе документов, дополнительные столбцы маркируют найденные строки определенным идентификатором, который относит части выгрузки из эталонной базы данных к заранее определенным группам информации и позволяет осуществлять автоматическую блокировку передачи этих групп информации, найденных в анализируемых документах, при несоблюдении заданных условий.
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ | 2013 |
|
RU2546583C2 |
Способ формирования и структурирования электронной базы данных | 2018 |
|
RU2696295C1 |
US 20200302081 A1, 24.09.2020 | |||
US 20190347429 A1, 14.11.2019 | |||
US 9971809 B1, 15.05.2018. |
Авторы
Даты
2024-06-24—Публикация
2024-01-25—Подача