ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к вычислительной технике и сфере обеспечения информационной безопасности за счет применения в системе предотвращения утечки информации подсистемы перехвата передаваемых данных, при этом выполняют разбиение событий на группы, формирование новых групп событий для автоматического определения типов нарушений.
УРОВЕНЬ ТЕХНИКИ
Из уровня техники известны средства защиты периметра локальной (корпоративной) вычислительной сети, комплексы аппаратно-программных средств, осуществляющие контроль и фильтрацию проходящих через них сетевых пакетов в соответствии с заданными правилами к безопасности предоставляемых по сети услуг и, в частности, выполняющие обнаружение документов и изображений, защиту от потери документов, идентификацию на основе изображений при применении услуг безопасности.
Аналогом предлагаемого решения является «Система защиты компьютерных сетей от несанкционированного доступа», раскрытая в патенте RU 2763115, МПК G06F 21/55, G06N 20/00, опубликованном 27.12.2021. При этом способ корректировки параметров модели машинного обучения для определения ложных срабатываний и инцидентов информационной безопасности (далее - инцидентов), в котором изменяют вердикты для определенной части событий информационной безопасности (далее - первого множества событий) с вердиктом «ложное срабатывание» на вердикты «инцидент», где вердикты для событий определяют с использованием модели машинного обучения для определения ложных срабатываний и/или инцидентов, при этом первое множество событий выбирают, в частности, случайным образом среди событий с вердиктом «ложное срабатывание», при этом выбирают такое количество событий первого множества, которое не превышает второй порог, являющийся параметром модели машинного обучения; отправляют по меньшей мере часть событий первого множества событий на анализ в аналитический центр; используя результаты анализа, содержащие вердикты, вынесенные отправленным на анализ событиям, корректируют параметры модели машинного обучения для определения ложных срабатываний и/или инцидентов.
Известна система предотвращения потери данных «Data loss prevention expression building for a DLP engine», раскрытая в патенте US 11455407, МПК G06F 21/62, GO6F 21/60, опубликованном 20.10.2003, которая описывает способы и системы, которые включают в себя получение выражения для механизма предотвращения потери данных (data loss prevention, DLP), при этом выражение включает в себя один или несколько словарей DLP, предоставляющих оценку для сравнения с соответствующим порогом, и один или несколько логических операторов, используемых для объединения оценок одного или нескольких словарей DLP; хранение выражения в базе данных, связанной со службой DLP; мониторинг трафика от одного или нескольких пользователей; оценку трафика с использованием механизма DLP и выражения; и определение триггера DLP на основе результата выражения, которое является логическим значением.
Для анализа текстовых данных из уровня техники известны, например, способы анализа:
a) копирайтный анализ текстовых данных предполагает наличие в банке данных эталонных документов (например, важных договоров), и решает задачу поиска в трафике цитаты, которая и будет являться результатом данного анализа. Существует несколько вариантов копирайтного анализа, каждый из которых делает фокус на различных особенностях информации, например, анализ выгрузок из баз данных ориентирован на обработку табличных данных. Примеры использования копирайтного анализа раскрыты в патентных документах RU 2581766 C2, RU 2013122217 A, RU 2474870 C1, US 9852122 B2;
b) классификатор текста решает задачу описания тематик анализируемых данных. Обычно это описание формируют с помощью коллекции документов на одну тему (например, финансовые отчёты). На основании такой коллекции классификатор обучается и при анализе может отнести полученный текст к одной из заданных категорий. Пример применения классификатора текста раскрыт в патентной заявке RU 2012102484 A;
c) анализ текста путем поиска по шаблону раскрыт в патентной заявке RU 2012104987 A. При данном подходе Подсистема определяет шаблоны текста, которые интересуют офицера безопасности. Шаблоны задаются с помощью регулярных выражений. Например, можно задать шаблон, описывающий все варианты записи номера кредитной карты. Особенностью системы является то, что есть возможность написать верифицирующую функцию и найденный набор цифр, который выглядит как номер кредитной карты, можно отдать в верифицирующую функцию, в которой будет посчитана контрольная сумма для данной карты по алгоритму Луна (алгоритм вычисления контрольной цифры номера пластиковых карт в соответствии со стандартом ISO/IEC 7812) и сравнена с последней цифрой номера карты, они должны совпадать.
Для анализа двоичных файлов (все форматы файлов, кроме текстовых и графических, включая те, которые системе не удалось идентифицировать) производят копирайтный анализ, например, как в патентном документе RU 2014107495 A, при этом предполагается, что пользователь задал системе набор двоичных (не текстовых и не графических) эталонных файлов, поиск фрагментов которых выполняют в подсистеме анализа перехваченных данных при анализе перехваченного трафика.
Для анализа графических данных в векторных изображениях из уровня техники известны, например, способы копирайтного анализа, раскрытые в патентах RU 2633156 C1, EA 201700283 A1 и по алгоритму, подобно описанным выше.
Графические данные в растровых изображениях, как описано в уровне техники, например, в патентных документах RU 2633159 C1, EA 201700282 A1, также могут быть проанализированы с применением копирайтного анализа.
Поиск малого изображения в большом описан в патентном документе EA 040186 B1, который раскрывает поиск логотипов платёжных систем во всех изображениях и позволяет детектировать пересылку фотографий кредитных карт.
В патентном документе RU 2556461 C2 раскрыта технология поиска в изображении печатей, в которой загружают эталонные печати и выполняют их поиск на всём перехваченном трафике.
Таким образом известные методы сбора данных включают использование словарей и механизмов DLP. Эти подходы используются для обнаружения точного сопоставления данных, когда помечаются определенные ключевые слова, классы данных. Например, DLP может обнаруживать номера социального страхования, номера кредитных карт на основе формата данных, например, в структурированных документах. DLP также может обнаруживать определенные ключевые слова в словарях DLP. Однако DLP сложно работать с неструктурированными документами. Неструктурированные документы – это именно то, что является критически важным для утечки информации, поскольку обычно документы составлены в произвольной форме и не имеют заданной структуры.
Основными недостатками известных аналогов является, то, что для предотвращения утечки неструктурированных документов дополнительно не применяют разбиение событий на группы, формирование новых групп для автоматического определения типов нарушений, что позволяет получить тематические группы событий с различным уровнем точности и отнести к этим группам события, заранее не отраженные в политиках безопасности; это повышает уровень предотвращения утечки информации.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Технический результат изобретения заключается в расширении арсенала технических средств и систем предотвращения утечки информации (далее – DLP-система) за счет применения разбиения событий на группы, формирования новых групп событий для автоматического определения типов нарушений.
Указанный технический результат достигается системой предотвращения утечки данных, которая содержит:
- как минимум один сервер, на котором установлена серверная часть DLP-системы, связанная по меньшей мере с одним терминальным устройством;
- при этом DLP-система содержит:
- подсистему перехвата событий на терминальном устройстве пользователя и/или серверной части DLP-системы;
- подсистему извлечения данных из перехваченных событий на терминальном устройстве пользователя и/или серверной части DLP-системы;
- подсистему анализа перехваченных данных из событий на терминальном устройстве пользователя и/или серверной части DLP-системы;
- подсистему хранения перехваченных данных и результатов применения политик на терминальном устройстве пользователя и/или серверной части DLP-системы
- подсистему группирования перехваченных данных на серверной части DLP-системы;
- подсистему применения политик безопасности к перехваченным данным на терминальном устройстве пользователя и/или серверной части DLP-системы;
- базу данных хранения перехваченных данных на серверной части DLP-системы;
- подсистему интерфейса пользователя для отображения результатов работы DLP-системы и ее настройки на серверной части DLP-системы;
при этом серверы системы предотвращения утечки данных должны быть доступны для отправки анализируемых данных, при этом для каждого канала передачи данных настраивают подсистему перехвата.
Каждое перехваченное событие передачи сообщения или доступа к документу передают в подсистему извлечения данных, которая строит дерево разбора события, при этом корнем дерева разбора является перехваченный документ, а в остальных узлах содержится информация, которая была передана в составе перехваченного документа, информация в котором представляет текст или изображение.
Результат работы подсистемы извлечения данных из события передают в подсистему анализа данных из событий, которая осуществляет анализ полученных данных путем применения технологий анализа.
Результат работы подсистемы анализа данных из событий передают в подсистему применения политик безопасности, где политики безопасности накладывают конфигурацию политик безопасности на свойства перехваченных данных посредством сравнения значений политик с результатом анализа данных и другими атрибутами событий.
В предпочтительном варианте реализации система предотвращения утечки данных производит получение дополнительных атрибутов, с помощью которых в дальнейшем появляется возможность быстро искать похожие тексты или проводить быструю группировку похожих документов для выявления новых категорий информации или уточнения существующих.
В предпочтительном варианте реализации система предотвращения утечки данных результаты работы подсистемы применения политик безопасности передают в подсистему хранения перехваченных данных и результатов применения политик.
В предпочтительном варианте реализации система предотвращения утечки данных хранит результаты работы подсистем, настройки, конфигурации и реакции на события в базе данных.
В одном из вариантов реализации система содержит графический интерфейс пользователя, на который отправляют результаты работы для проверки системным администратором.
Способ предотвращения утечки данных, реализуемый посредством сервера, выполняет этапы, на которых настраивают для каждого канала передачи данных подсистему перехвата. Перехватывают каждое событие передачи сообщения или доступа к документу и помещают в подсистему извлечения данных, которая строит дерево разбора события, при этом корнем дерева разбора является перехваченный документ, а в остальных узлах содержится информация, которая была передана в составе перехваченного документа, информация в котором представляет текст или изображение.
Передают результат работы подсистемы извлечения данных из события в подсистему анализа данных из событий, которая осуществляет анализ полученных данных путем применения технологий анализа.
Передают результат работы подсистемы анализа данных из событий в подсистему применения политик безопасности, где политики безопасности накладывают конфигурацию политик безопасности на свойства перехваченных данных посредством сравнения значений политик с результатом анализа данных и другими атрибутами событий.
В предпочтительном варианте реализации способ предотвращения утечки данных содержит дополнительный этап, на котором производится получение дополнительных атрибутов событий, с помощью которых в дальнейшем появляется возможность быстро искать похожие тексты или проводить быструю группировку похожих документов для выявления новых категорий информации или уточнения существующих.
В предпочтительном варианте реализации способ предотвращения утечки данных содержит дополнительный этап передачи результата работы подсистемы применения политик безопасности в подсистему хранения перехваченных данных и результатов применения политик.
В предпочтительном варианте реализации способ предотвращения утечки данных содержит дополнительный этап, на котором сохраняют результаты работы подсистем, настройки, конфигурации и реакции на события в базе данных.
В одном из вариантов реализации способ предотвращения утечки данных содержит дополнительный этап, на котором аналитические отчеты о работе системы передают в графический интерфейс пользователя для проверки системным администратором.
Применение системы и способа предотвращения утечки данных позволяет существенно снизить время выявления полного сценария развития событий, которые потенциально способны привести к утечке чувствительной информации за контролируемый периметр информационной безопасности предприятия.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг.1 На фигуре представлена блок-схема системы предотвращения утечки информации.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Изобретение представляет собой комплекс аппаратно-программных средств, обеспечивающих реализацию в соответствии с Фиг.1 системы предотвращения утечки данных (DLP), содержит серверы DLP, которые размещают внутри и вне корпоративной сети предприятия. Для каждого канала передачи данных настраивают подсистему перехвата 1. После того как событие перехвачено, его передают в подсистему извлечения данных 2, которая строит дерево разбора события. Корнем дерева разбора является перехваченный объект. В остальных узлах содержится информация, которая была передана в составе перехваченного объекта. Подсистема анализа данных 3, которая осуществляет анализ полученных данных путем применения технологий анализа. На следующем этапе, в модуле применения политик безопасности 4, происходит вынесение вердикта для каждого перехваченного события. После этого подсистема записи перехваченных данных и результатов применения политик безопасности 5 сохраняет событие и приписанные к нему атрибуты сохраняются в базу данных 7. Разметка событий в дальнейшем используется для фильтрации событий по типу нарушений, для оповещения офицера безопасности о критических событиях.
Подсистема группирования 6, где производится получение дополнительных атрибутов, с помощью которых в дальнейшем появляется возможность быстро искать похожие тексты или проводить быструю группировку похожих документов для выявления новых категорий информации или уточнения существующих. Подсистема перехвата событий содержит модули перехвата событий на терминальном устройстве пользователя и/или серверной части DLP-системы. Каждый модуль перехвата отвечает за один канал передачи данных. Каналами передачи данных являются:
- электронная почта;
- облачные хранилища данных;
- FTP хранилища данных;
- съёмные накопители информации (телефоны, флеш-накопители и так далее);
- приложения для передачи сообщений и файлов;
- и другие каналы коммуникации.
Каждый модуль перехвата настраивается в зависимости от инфраструктуры компании и целей перехвата.
Настройка модуля осуществляется следующим образом:
1) каждый установленный модуль имеет файл конфигурации с информацией об инфраструктуре каналов, события из которых модуль перехватывает;
2) устанавливается связь между модулем и устройством (примером устройства, предоставляющего поток событий, перехваченных данных, является, например, почтовый сервер) посредством конфигурации устройства с целью направить поток событий с устройства в модуль перехвата.
В зависимости от конфигурации устройства, устройство:
1) или передает копию событий в модуль перехвата и не останавливает поток данных в рамках инфраструктуры компании;
2) или передает поток данных в модуль перехвата, прекращая дальнейшую обработку данных и их передачу (после анализа DLP-система или осуществляет самостоятельно направление событий согласно их маршруту или блокирует передачу данных);
3) или передает копию события в модуль перехвата и ожидает сигнала от модуля перехвата о подтверждении продолжения движения данных по ранее заданному маршруту или блокирования такого движения.
Подсистема извлечения данных из события состоит из двух основных модулей на терминальном устройстве пользователя и/или серверную часть DLP-системы:
1. Модуль детектирования формата отвечает за определение формата перехваченного файла, основываясь на так называемых «магических символах». Такими символами обычно называют сигнатуру формата, которая чаще всего располагается в начале файла. Такой подход к детектированию формата файла позволяет корректно детектировать формат, даже когда расширение файла указано неверно, либо отсутствует. Так же модуль реализует функционал доуточнения формата. Например, файл формата docx на самом деле является обычным zip-архивом, но по структуре файлов внутри такого архива можно понять, что в систему попал всё же docx файл и дальнейшую его обработку уже строить на основании этих данных (если просто распаковать такой файл, то осмысленного текста извлечь не получится, это будет набор xml файлов). Детектирование формата осуществляется следующим образом: модуль получает ссылку на перехваченный файл, который находится в Хранилище данных, открывает файл посредством системных вызовов и, считывая первые байты файла, ищет известные сигнатуры, которые были загружены в модуль при его запуске.
2. В модуле экстракции текстов и изображений из потока данных извлекают тексты и изображения для того, чтобы в дальнейшем было удобно анализировать содержимое файла. Экстракция текстов и изображений осуществляется следующим образом: при установке модуля он конфигурируется посредством загрузки в него информации о связи экстрактора и форматов файлов, которые модуль умеет обрабатывать, а также загрузки в модуль способов запуска этого экстрактора. Модуль получает от Модуля детектирования форматов информацию о формате перехваченного файла, ссылку на Хранилище данных, открывает файл посредством системных вызовов и для экстракции текстов и изображений применяет экстрактор, необходимый для формата файла.
Извлеченные текст и изображение помещаются в подсистему хранения перехваченных данных и результатов применения политик.
Подсистема анализа данных состоит из двух модулей, реализующих алгоритмы технологий анализа, которые установлены на терминальном устройстве пользователя и/или серверной части DLP-системы. Модуль считывания информации получает ссылку на конкретный файл в Хранилище данных, открывает файл посредством системных вызовов и считывает файл в оперативную память и передает в Модуль анализа данных. Модуль анализа данных осуществляет анализ полученных данных путем применения технологий анализа. При этом, в процессе исполнения анализа данных в него поступает конфигурация технологии анализа данных из DLP-системы и перехваченные данные для анализа.
Подсистема применения политик безопасности. Состоит из двух модулей, установленных на терминальном устройстве пользователя и/или серверной части DLP-системы.
Модуль подготовки данных применения политик получает ссылку на Хранилище данных или данные из Базы данных DLP-системы, к которой модуль обращается, используя идентификатор событий, открывает файл (или загружает данные в оперативную память из Базы данных). Модуль применения политик безопасности при старте загружает конфигурацию политик безопасности из файлов конфигурации, которые ранее были инсталлированы в DLP-систему. Политики безопасности представляют собой файл (или структуру в Базе данных), в котором политики описаны. В процессе эксплуатации DLP-системы конфигурация политик может изменяться. При каждом изменении этой конфигурации Модуль применения политик безопасности получает уведомление и перезагружает новую конфигурацию. Модуль применения политик безопасности накладывает конфигурацию политик безопасности на свойства перехваченных данных посредством сравнения значений политик с перехваченными данными.
В web-интерфейсе DLP-системы формируются правила для политик информационной безопасности, в которых может быть указана информация о технологиях анализа, применяемых к перехваченным данным, каналы передачи информации, от какой группы пользователей к какой группе (группы могут быть заданы, например, на основании организационной структуры предприятия) можно или нельзя передавать информацию. Например, для отдела бухгалтерии можно создать политику, в которой будет указано, что отдел бухгалтерии может передавать в банк и налоговую инспекцию любую информацию, которую технологии анализа отнесли к финансовой тематике по различным признакам (наличие номера счёта, соответствующая лексика документов и другие признаки), при этом другие сотрудники компании при передаче такой информации куда-либо попадут на контроль к офицеру безопасности.
По результатам анализа на совместимость с правилами для политик информационной безопасности, Модуль применения политик безопасности выносит вердикт, который представляет собой запись в базе данных, которая связана с перехваченным событием и используется при отображении, фильтрации и формировании уведомлений о событиях информационной безопасности. Вердикт формируется посредством применения условий, описанных в политике информационной безопасности к метаинформации о событии (включающую как минимум информацию о канале передачи данных, инициаторе события, цели передачи данных, результатов анализа данных) и направляется в базу данных.
Подсистема хранения перехваченных данных и результатов применения политик состоит из следующих модулей.
1) модуль хранилища данных, устанавливаемый на серверную часть DLP-системы. Хранилище данных получает от всех модулей DLP-системы различные данные, которые необходимо сохранить только на время обработки конкретного перехваченного события. Хранилище передает данные по запросу других модулей DLP-системы для их работы над перехваченными данными. Окончательные результаты обработки данных передаются из подмодуля в Базу данных;
2) Модуль формирования запроса на передачу в базу данных. После обработки перехваченных данных всеми предыдущими модулями, данный модуль инициирует запрос в модуль хранилища данных на передачу всей обработанной информации в модуль базы данных. Модуль формирования запроса на передачу в базу данных, получив из модуля хранилища данных информацию о готовности к передаче, формирует SQL запросы в базу данных на передачу данных. В запросе содержатся данные о событии, которые нужно сохранить. Запрос передаётся в модуль хранилища данных посредством вызова удалённых процедур через локальную сеть предприятия.
Подсистема группирования состоит из следующих модулей:
1. модуль подготовки текстов – отвечает за получение текстов, их токенизацию, подсчёт статистик и формирование вектора признаков. Модуль представляет собой программное обеспечение, которое устанавливается на серверной части DLP-системы и связывается со следующими подсистемами и DLP-системой в целом следующим образом: посредством удалённого вызова функций публичного API.
2. модуль группирования представляет собой программное обеспечение, которое устанавливается на серверной части DLP-системы и связано с системой хранения данных и веб интерфейсом и DLP-системой в целом. Модуль группирования группирует документы посредством определения вектора признаков документов.
3. интерфейс группирования представляет собой интерфейс группирования данных, который позволяет получать тематические группы с различным уровнем точности.
В предпочтительном варианте реализации система предотвращения утечки данных реализует способ, на первом этапе которого данные, попавшие в DLP-систему, направляются в подсистему перехвата событий, где с помощью модулей, отвечающих за определенный канал перехвата (электронная почта, мессенджеры, файловые операции и так далее), перехватывает данные. Подсистема перехвата событий формирует из перехваченных данных Событие. Событие перехвата - это результат действий пользователя в одном из каналов передачи данных. События имеют базовые атрибуты, которые могут быть расширены атрибутами, специфичными для канала перехвата.
Базовые атрибуты событий:
a) Канал перехвата;
b) Время, в которое произошло событие;
c) Идентификатор инициатора события;
d) Получатель события (например, для почты - это адресаты письма, для копирования на съёмный накопитель - его идентификатор);
e) Размер события.
Расширенными атрибутами, например, для электронной почты, могут служить:
a) почтовый сервер, через который было отправлено электронное письмо;
b) заголовки электронного письма;
c) тема письма;
d) и другие атрибуты.
Затем событие из подсистемы перехвата данных направляют в подсистему извлечения данных из события, где событие раскладывают на составляющие части и готовят к анализу. Любое событие по своей природе является файлом. Форматы файлов могут быть разными. Для каждого формата в подсистеме извлечения данных из события имеется соответствующий экстрактор. Для выбора необходимого экстрактора в указанной подсистеме извлечения данных из события есть модуль детектирования формата файла. Если тип файла известен подсистеме извлечения данных из события и для него есть экстрактор, он вызывается. Каждый экстрактор принимает на вход файл, на выходе так же получаются файлы с данными, из которых состоит исходный файл. Для полученных файлов подсистема извлечения данных из события так же определяет формат и вызывает соответствующие экстракторы. Процесс останавливается, когда для полученного формата подсистема извлечения данных из события не имеет экстрактор, либо формат неизвестен подсистеме извлечения данных из события и она не смогла его определить, либо, когда в качестве результата экстракции был получен текстовый файл. Например, при перехвате архива, подсистема извлечения данных из события определяет тип архива, вызывает соответствующий разархиватор, далее определяется формат полученных файлов, предположим это оказались документы формата docx, и вызывает соответствующий экстрактор для каждого файла. На выходе подсистема извлечения данных из события может получить текстовый файл с телом документа, а также все вставки в офисном документе (xlsx, jpeg, даже exe файлы). Некоторые форматы не предполагают наличие текста, например, изображения. Но изображение может являться сканом важного документа. Для таких случаев в системе предусмотрен экстрактор типа «Оптическое распознавание символов» (Optical character recognition, OCR), с помощью которого можно получить текст даже из изображения.
Подсистема извлечения данных из события строит дерево разбора события. При этом, корнем дерева разбора является перехваченный документ или сообщение, а в остальных узлах содержится информация, которая была передана в составе перехваченного документа или сообщения, информация в котором представляет собой текст или изображение.
Извлеченное Событие направляют в подсистему анализа данных. В данной подсистеме анализа данных для бинарных данных (все форматы файлов, кроме текстовых и графических, включая те, которые системе не удалось идентифицировать) производят копирайтный анализ - в этом случае предполагается, что пользователь задал системе набор бинарных (не текстовых и не графических) эталонных файлов, фрагменты которых подсистема анализа данных и пытается найти в перехваченном трафике.
Подсистема анализа данных использует следующие виды анализа:
a) копирайтный анализ предполагает наличие в подсистеме эталонных документов (например, важных договоров), найденные в трафике совпадения с эталонными документами и будут являться результатом данного анализа. Данный анализ применим к следующим типам документов: текстовым, текстовым структурированным, растровым изображениям, векторным изображениям и бинарным данным. Применяется при анализе каждого события, если заданы соответствующие эталонные документы;
b) классификатор данных. Подсистема обучается классифицировать данные по заданным категориям и при анализе может отнести полученные данные к одной из заданных категорий. Применяется при анализе каждого события, если классификатор обучен соответствующим категориям;
c) поиск по шаблону. При данном подходе подсистема определяет шаблоны текста, которые интересуют офицера безопасности. Шаблоны задаются с помощью регулярных выражений. Например, можно задать шаблон, описывающий все варианты записи номера кредитной карты. Особенностью системы является то, что есть возможность написать верифицирующую функцию и найденный набор цифр, который выглядит как номер кредитной карты, можно отдать в верифицирующую функцию в которой будет посчитана контрольная сумма для данной карты по алгоритму Луна и сравнена с последней цифрой номера карты, они должны совпадать. Применятся для каждого события, если заданы соответствующие шаблоны.
Также подсистема анализа данных включает модуль агрегации результатов анализа. Через конфигурацию системы можно создать объекты защиты, которые описывают логические связи между результатами анализа данных. В самом простом случае один объект защиты содержит один вариант результатов анализа. Например, тематику информации для текста. Но можно создавать и более сложные взаимосвязи через логические операторы "И", "ИЛИ" и "НЕТ". Данный базис операций позволяет описывать достаточно сложные условия срабатывания объектов защиты. Например, объект защиты "Договоры поставки" должен "сработать" при наличии в результатах анализа категории "Договор" и регулярного выражения "Номер договора поставки" (которое описывает формат номера такого типа договоров). Такой подход позволяет точнее настраивать систему и избегать ложноположительных срабатываний (когда система сработала на событии, содержащем договор по оказанию услуг или событие электронной почты, в котором упоминается номер договора поставки).
Подсистема анализа данных выдаёт для каждого файла результаты его анализа. А для события "сработавшие" объекты защиты.
Подсистема применения политик безопасности принимает результаты работы подсистемы анализа данных и атрибуты событий. В указанной подсистеме применения политик безопасности можно задавать политики безопасности, в которых указать конкретную совокупность объектов защиты и атрибутов События и реакцию подсистемы применения политик безопасности на такое сочетание. Реакция подсистемы применения политик безопасности на заданные комбинации могут быть различными. От простого присвоения уровня угрозы, до моментальной блокировки передачи события во вне сети предприятия с уведомлением инициатора, его руководителя и офицера безопасности.
Подсистема хранения перехваченных данных и результатов применения политик сохраняет события для дальнейшего их поиска (по параметрам или полнотекстового), отображения и составления отчётов.
При укладке событий в подсистему хранения перехваченных данных и результатов применения политик текстовые составляющие этих событий передаются в подсистему группирования, где производится получение дополнительных атрибутов, с помощью которых в дальнейшем появляется возможность быстро искать похожие тексты или проводить быструю группировку похожих документов для выявления новых категорий информации или уточнения существующих. Например, шаблон договора будет повторяться во всех договорах и есть смысл все договоры, порождённые от одного шаблона, отнести к одной группе. После этого в группе переданных документов определяется мера схожести (индекс цитирования) документов. Группируются документы по схожести. Далее подсистема группирования выделяет группы. Для каждого документа группы рассчитывается характеристика, определяющая близость документа к центру группы. Характеристика сохраняется в свойствах документа. Также для каждой группы формируется список тегов, являющихся самыми значимыми в группе. Результаты группирования сохраняются в Базе данных.
Базу данных DLP-системы используют для хранения атрибутов событий.
Интерфейс пользователя используется для отображения результатов работы DLP- системы и её настройки.
В предпочтительном варианте реализации DLP системы результаты работы подсистемы группирования могут быть применены:
a) для поиска похожих документов по образцу,
b) для группировки документов из событий в тематические группы,
c) для подготовки обучающей выборки для технологии классификации текста для подсистемы анализа данных,
d) для подготовки политик для подсистемы применения политик безопасности,
e) для отслеживания появления новых тематических групп в трафике предприятия.
В предпочтительном варианте реализации DLP системы результаты работы подсистемы применения политик безопасности передают в подсистему хранения перехваченных данных и результатов применения политик.
В предпочтительном варианте реализации DLP система хранит результаты работы подсистем, настройки, конфигурации и реакции на события в Базе данных.
В одном из вариантов реализации DLP система содержит графический интерфейс пользователя, на который отправляют результаты работы для проверки системным администратором.
В одном из вариантов DLP система содержит подсистему аудита и категоризации данных на файловых ресурсах организации, которая сканирует сетевые папки, рабочие станции и хранилище SharePoint, передает в DLP систему найденные файлы и на основе контентного анализа, и места расположения файла позволяет обнаружить нарушения, связанные с хранением информации, а также нарушения, связанные с предоставлением неправомерного доступа. Функция категоризации документов на файловых ресурсах позволяет автоматически сгруппировать данные по смыслу, чтобы обнаружить новые информационные активы, требующие защиты. Информация о файле с вердиктами сохраняется в DLP системе.
В одном из вариантов DLP система содержит подсистему, которая позволяет визуализировать сохраненные события в виде диаграмм, графов связей, персонального досье сотрудника.
В одном из вариантов DLP система содержит подсистему, которая на основе данных из DLP системы обеспечивает контроль действий сотрудников (какие сайты посещают, какие программы открывают, какой текст вводят, категорирование активности на рабочую/нерабочую, скриншоты).
В одном из вариантов DLP система содержит подсистему, которая позволяет выявлять сотрудников, относящихся к разным группам риска. Сотрудники относятся к тем или иным группам риска на основе анализа событий за длительные промежуток времени и выявления в них аномалии.
В одном из вариантов DLP система содержит интерфейс прикладного программирования (API), позволяющий получать сторонним системам информацию о событиях, регистрируемых DLP-системой, а также самостоятельно регистрировать События DLP-системой.
Схема информационных потоков, которые обрабатывают в системе предотвращения утечки данных, предусматривает сбор следующих данных:
- о трафике внутри и за пределы организации;
- о файлах на персональных компьютерах и серверах;
- о действиях сотрудников за рабочим местом.
Потоки данных почтовых сообщений, сообщений в мессенджерах и другим каналам передачи данных регистрируют и специализированные экстракторы выделяют из событий и файлов текстовую и графическую информацию.
Далее события передаются в продукты/модули для анализа.
DLP система анализирует события и принимает решение – подлежит ли передаваемая информация защите или нет. С помощью технологий контентного анализа и маршрута перемещения информации, выявляется попадает ли информация под действие какой-либо сконфигурированной политики. И в зависимости от политики событие маркируется соответствующем образом. Если в политике включен режим блокировки, передача конфиденциальных данных будет заблокирована.
Возможности:
1. Защита от утечек данных;
2. Возможность интеграции с корпоративными системами и приложениями;
3. Автоматизированная настройка политик безопасности;
4. Создание защищенного контейнера для работы с конфиденциальной информации на личных устройствах сотрудников;
5. Контроль перемещения конфиденциальной информации внутри корпоративной инфраструктуры в ненадлежащее хранилище.
DLP система позволяет проводить аудит и категоризацию данных на файловых ресурсах организации, сканирует сетевые папки, рабочие станции и хранилище SharePoint, передает найденные файлы и на основе контентного анализа и места расположения файла позволяет обнаружить нарушения, связанные с хранением информации, а также нарушения, связанные с предоставлением неправомерного доступа. Функция категоризации документов на файловых ресурсах позволяет автоматически сгруппировать данные по смыслу, чтобы обнаружить новые информационные активы, требующие защиты. Информация о файле с вердиктами сохраняется в DLP система
Возможности:
1. Сканирование персонального компьютера и серверов по протоколам SMB, SSH, DFS и порталов Microsoft SharePoint;
2. Параллельная обработка несколькими узлами (нодами) для распределения нагрузки;
3. Анализ только новых файлов при повторном сканировании;
4. Выявление нарушений правил хранения;
5. Нахождение скрытых копий;
6. Инвентаризация файлов с помощью анализа метаинформации.
DLP система - позволяет визуализировать сохраненные события в виде диаграмм, графов связей, персонального досье, Данная возможность поможет оперативно проводить расследования, а также собирать досье на каждого сотрудника.
Возможности:
1. Граф связей компании, подразделений или отдельных персон;
2. Маршруты перемещения конкретных файлов или типов информации;
3. Сводная статистика по компании и моментальный переход к деталям событий;
4. Быстрое обновление даже на больших массивах данных – обработка 100 000 событий в секунду;
5. Разграничение видимости данных для разделения полномочий.
DLP система обеспечивает контроль действий сотрудников (какие сайты посещают, какие программы открывают, какой текст вводят, категорирование активности на рабочую/нерабочую, скриншоты). Эти данные позволяют понять, что делал сотрудник до, вовремя и после совершения инцидента.
Возможности:
1. Учет рабочего времени;
2. Сбор статистики;
3. Сбор данных – скриншоты экрана, поисковые запросы, посещаемые веб-ресурсы;
4. Категоризация активности;
5. Состав программного обеспечения и нагрузка на персональный компьютер.
DLP система позволяет выявлять сотрудников, относящихся к разным группам риска. Сотрудники относятся к тем или иным группам риска на основе анализа событий за длительные промежуток времени и выявления в них аномалии.
Интерфейс прикладного программирования (API) позволяет получать сторонним системам информацию о событиях, а также самостоятельно регистрировать события
Возможности:
1. Анализ поведения сотрудников с помощью машинного обучения;
2. Динамические модели поведения каждого сотрудника, а не статичные шаблоны;
3. Формирование групп риска на основе индивидуальной оценки;
4. Оценка рисков и оповещение о самых опасных трендах.
Типичный сценарий настройки DLP-системы после развертывания подразумевает, что со всех перехватываемых каналов информация поступает в хранилище, необходимо настроить разметку этой информации. На первом этапе настраивают автоматический анализ информации. Для этих целей выясняют:
1. какие тематики информации интересуют пользователя;
2. какие категории информации являются чувствительными для данной организации;
3. какие документы ни в коем случае не должны покидать периметр предприятия.
Чаще всего этим занимается аналитик, который опрашивает потенциального пользователя. При таком подходе возникает ряд трудностей:
1. информация может быть настолько чувствительной, что аналитик никак не может получить к ней доступ, а если может, то это требует оформления специального допуска;
2. пользователь DLP-системы не является владельцем информации, в связи с чем ему приходится погружаться в чужие для него области и понимать, что является чувствительной информацией, а что – нет;
3. довольно часто в организациях не существует ярко выраженных владельцев информации, что сильно затрудняет ее сбор и анализ.
С течением времени структура тематик информации, циркулирующей внутри предприятия, меняется, что делает неактуальной первоначальную настройку DLP-системы.
После того, как информация собрана, необходимо определить легитимные пути передачи информации определенной тематики. Для этого настраивают политики передачи информации, в которых определяют тематики, объем и группы пользователей.
На данном этапе аналитик выделяет пользователей или группы пользователей, которым позволена либо запрещена передача той или иной информации. Далее происходит формализация этих знаний в виде политик защиты в рамках DLP-системы.
После того, как настроены политики безопасности, DLP-систему переводят в рабочий режим. Основными проблемами данного подхода являются:
1. высокая стоимость продуктов DLP из-за того, что для составления политик безопасности нужно, чтобы аналитик проанализировал все бизнес-процессы клиента. При этом процессы могут быть вариативны, не формализованы и не доступны аналитику (секретность);
2. статичность настройки решения. В процессе работы в информационной среде предприятия могут возникать новые документы, которых не было, когда производилась настройка DLP-системы. Также некоторые процессы являются периодическими (например, сезонные): их сложно выделить за тот период времени, который отводится на внедрение и настройку DLP-системы;
3. высокая стоимость эксплуатации. Из-за того, что постоянно приходится в ручном режиме донастраивать DLP-систему, необходимо держать в штате высокооплачиваемых специалистов.
название | год | авторы | номер документа |
---|---|---|---|
Система и способ корреляции событий для выявления инцидента информационной безопасности | 2019 |
|
RU2739864C1 |
Архитектура безопасности автоматизированных систем | 2015 |
|
RU2714726C2 |
СИСТЕМА И СПОСОБ ЗАЩИТЫ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, СОДЕРЖАЩИХ КОНФИДЕНЦИАЛЬНУЮ ИНФОРМАЦИЮ, ОТ НЕСАНКЦИОНИРОВАННОГО ДОСТУПА | 2020 |
|
RU2759210C1 |
СИСТЕМА ПОСТАНОВКИ МЕТКИ КОНФИДЕНЦИАЛЬНОСТИ В ЭЛЕКТРОННОМ ДОКУМЕНТЕ, УЧЕТА И КОНТРОЛЯ РАБОТЫ С КОНФИДЕНЦИАЛЬНЫМИ ЭЛЕКТРОННЫМИ ДОКУМЕНТАМИ | 2017 |
|
RU2647643C1 |
Способ блокировки доступа к данным на мобильных устройствах с использованием API для пользователей с ограниченными возможностями | 2015 |
|
RU2618946C1 |
Способ и система выявления аномального поведения пользователей | 2021 |
|
RU2775861C1 |
Индивидуальный диспетчерский тренажер для тренинга оперативно-диспетчерского персонала магистральных нефтепроводов | 2015 |
|
RU2639932C2 |
Способ обнаружения вредоносных файлов, противодействующих анализу в изолированной среде | 2018 |
|
RU2708355C1 |
Система и способ анализа файла на вредоносность в виртуальной машине | 2017 |
|
RU2665911C2 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ | 2013 |
|
RU2546583C2 |
Изобретение относится к вычислительной технике. Технический результат заключается в снижении времени выявления полного сценария развития событий, которые потенциально способны привести к утечке чувствительной информации. Система предотвращения утечки данных содержит сервер, размещаемый внутри корпоративной сети предприятия, при этом для каждого канала передачи данных настраивают подсистему перехвата, а каждое перехваченное событие передачи сообщения или доступа к документу передают в подсистему извлечения данных, которая строит дерево разбора события, при этом корнем дерева разбора является перехваченный документ, а в остальных узлах содержится информация, которая была передана в составе перехваченного документа, информация в котором представляет текст или изображение, результат работы подсистемы извлечения данных из события передают в подсистему анализа данных из событий, которая производит анализ полученных данных путем применения технологий анализа, результат работы подсистемы анализа данных из событий передают в подсистему применения политик безопасности, где политики безопасности накладывают конфигурацию политик безопасности на свойства перехваченных данных посредством сравнения значений политик с результатом анализа данных и другими атрибутами событий. 2 н. и 8 з.п. ф-лы, 1 ил.
1. Система предотвращения утечки данных содержит:
- как минимум один сервер, на котором установлена серверная часть DLP-системы, связанная по меньшей мере с одним терминальным устройством;
- при этом DLP-система содержит:
- подсистему перехвата событий на терминальном устройстве пользователя и/или серверной части DLP-системы;
- подсистему извлечения данных из перехваченных событий на терминальном устройстве пользователя и/или серверной части DLP-системы;
- подсистему анализа перехваченных данных из событий на терминальном устройстве пользователя и/или серверной части DLP-системы;
- подсистему хранения перехваченных данных и результатов применения политик на терминальном устройстве пользователя и/или серверной части DLP-системы
- подсистему группирования перехваченных данных на серверной части DLP-системы;
- подсистему применения политик безопасности к перехваченным данным на терминальном устройстве пользователя и/или серверной части DLP-системы;
- базу данных хранения перехваченных данных на серверной части DLP-системы;
при этом по меньшей мере один сервер размещают внутри корпоративной сети предприятия и для каждого канала передачи данных настраивает подсистему перехвата,
при этом каждое перехваченное событие передачи сообщения или доступа к документу передают в подсистему извлечения данных, которая строит дерево разбора события, при этом корнем дерева разбора является перехваченный документ, а в остальных узлах содержится информация, которая была передана в составе перехваченного документа, информация в котором представляет текст или изображение,
результат работы подсистемы извлечения данных из события передают в подсистему анализа данных из событий, которая осуществляет анализ полученных данных путем применения технологий анализа,
результат работы подсистемы анализа данных из событий передают в подсистему применения политик безопасности, где политики безопасности накладывают конфигурацию политик безопасности на свойства перехваченных данных посредством сравнения значений политик с результатом анализа данных и другими атрибутами событий.
2. Система по п.1, в которой собранные данные передаются в подсистему группирования, которая производит получение дополнительных атрибутов, с помощью которых в дальнейшем появляется возможность быстро искать похожие тексты или проводить быструю группировку похожих документов для выявления новых категорий информации или уточнения существующих.
3. Система по п.1, в которой результаты работы подсистемы применения политик безопасности передают в подсистему хранения перехваченных данных и результатов применения политик.
4. Система по п.1, в которой сохраняют в базе данных результаты работы подсистем, настройки, конфигурации и реакции на события.
5. Система по п.1, в которой дополнительно реализована подсистема интерфейса пользователя для отображения результатов работы DLP-системы и ее настройки на серверной части DLP-системы.
6. Способ предотвращения утечки данных, реализуемый посредством системы по п. 1, в котором по меньшей мере один сервер, размещенный внутри корпоративной сети предприятия, обеспечивает выполнение этапов, на которых настраивают для каждого канала передачи данных подсистему перехвата,
перехватывают каждое событие передачи сообщения или доступа к документу и помещают в подсистему извлечения данных, которая строит дерево разбора события, при этом корнем дерева разбора является перехваченный документ, а в остальных узлах содержится информация, которая была передана в составе перехваченного документа, информация в котором представляет текст или изображение,
передают результат работы подсистемы извлечения данных из события в подсистему анализа данных из событий, которая осуществляет анализ полученных данных путем применения технологий анализа,
передают результат работы подсистемы анализа данных из событий в подсистему применения политик безопасности, где политики безопасности накладывают конфигурацию политик безопасности на свойства перехваченных данных посредством сравнения значений политик с результатом анализа данных и другими атрибутами событий.
7. Способ по п.6, в котором собранные данные передаются в подсистему группирования, которая производит получение дополнительных атрибутов, с помощью которых в дальнейшем появляется возможность быстро искать похожие тексты или проводить быструю группировку похожих документов для выявления новых категорий информации или уточнения существующих.
8. Способ по п.6, в котором результаты работы подсистемы применения политик безопасности передают в подсистему хранения перехваченных данных и результатов применения политик.
9. Способ по п.6, в котором сохраняют в базе данных результаты работы подсистем, настройки, конфигурации и реакции на события.
10. Способ по п.6, в котором дополнительно реализована подсистема интерфейса пользователя для отображения результатов работы DLP-системы и ее настройки на серверной части DLP-системы.
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Станок для придания концам круглых радиаторных трубок шестигранного сечения | 1924 |
|
SU2019A1 |
Токарный резец | 1924 |
|
SU2016A1 |
US 8060596 B1, 15.11.2011 | |||
Способ получения цианистых соединений | 1924 |
|
SU2018A1 |
Способ корректировки параметров модели машинного обучения для определения ложных срабатываний и инцидентов информационной безопасности | 2020 |
|
RU2763115C1 |
Авторы
Даты
2024-11-18—Публикация
2024-06-05—Подача