Способ хеширования файлов для быстрого поиска дубликатов Российский патент 2024 года по МПК G06F16/172 

Описание патента на изобретение RU2825549C1

Область техники

Изобретение относится к компьютерной безопасности, а именно к способам хеширования файлов в системах класса DLP (data loss prevention), и может быть использовано для быстрого поиска дубликатов файлов, в том числе для предотвращения утечки данных.

Уровень техники

DLP системы обрабатывают значительное количество теневых копий оригиналов файлов, которые, например, были загружены на USB-носители, в облачные хранилища, отправлены по электронной почте или через другие каналы связи. Для данных теневых копий требуется осуществлять быстрый поиск с возможностью поиска конкретного файла, находить копии данного файла в файловых системах или в корпоративных архивах сохраненных сообщений (история переписки в электронной почте, корпоративном мессенджере) и во многих других случаях.

Для этого DLP системы используют хеширование для обеспечения целостности данных и выявления возможных нарушений. С помощью хеширования создается уникальный идентификатор для каждого файла, который можно сравнить с эталонным значением для обнаружения дубликатов или возможных изменений. В случае обнаружения дубликатов или изменений DLP система может предпринять определенные действия, например, уведомить администратора или заблокировать доступ к файлу.

На сегодняшний день из уровня техники известны различные алгоритмы, выполняющие хеширование\контрольное суммирование файла до единого значения (CRC 8/16/32 и их аналоги, линейка алгоритмов MD2/4/5/6, алгоритмы SHA и алгоритмы стандарта ГОСТ 34.11-94), однако их применение влияет на вычислительные ресурсы ЦПУ, более того, что еще критичнее, существенно влияет на производительность систем хранения данных. Данные алгоритмы хеширования являются довольно точными, но весьма ресурсоемкими. Данная точность является для прикладных задач избыточной, поскольку DLP системы хранят пусть и большой, но все же не бесконечный архив файлов.

Один из известных способов сравнения массивов бинарных данных раскрыт в патенте РФ на изобретение №2601191, где осуществляют автоматизированное сравнение массивов бинарных данных путем получения наборов идентификационных данных, состоящих из последовательно расположенных минимальных значений для каждой хэш-функции в виде набора идентификационных данных анализируемых документов, а также получения наборов идентификационных данных для эталонных документов, с выявлением совпадений между этими наборами. При этом последовательность бинарных данных в данном способе разбивают на подблоки заданной длины с перекрытием на один символ данных.

Однако перекрытие подблоков бинарных данных может привести к снижению точности хеширования, поскольку одни и те же данные будут хешироваться несколько раз. Это может увеличить вероятность коллизий, когда два разных входных данных дают один и тот же хеш. Кроме того, данный способ является достаточно ресурсоемким.

Раскрытие сущности изобретения

Настоящее изобретение направлено на достижение технических результатов, заключающихся в повышении быстродействия и точности поиска дубликатов файлов, и снижении нагрузки на ЦПУ и систему хранения данных.

Заявленные технические результаты обеспечивает способ хеширования файлов для быстрого поиска дубликатов, содержащий следующие этапы:

1) парсер протокола получает оригиналы файлов и их метаданные от внешних источников;

2) метаданные и оригиналы файлов сохраняются в базу данных;

3) по базе данных проводится сканирование файлов, хеш для которых еще не рассчитан;

4) файл, хеш для которого еще не рассчитан, подвергается хешированию, при этом, если такой файл менее заданного размера, то он хешируется полностью, а если размер файла больше заданного размера, то хешируются его первый или последний блоки заданного размера;

5) к полученному хешу добавляется размер файла, и полученный хеш сохраняется в базу данных с привязкой к файлу;

6) выборка конкретных файлов по базе данных в соответствии с их хешами и поиск дубликатов.

Краткое описание чертежей

Заявляемое изобретение поясняется изображением:

на чертеже - блок-схема способа хеширования файлов для быстрого поиска дубликатов.

Осуществление изобретения

Используемые термины в настоящем изобретении:

Хеширование - преобразование произвольного массива данных в строку фиксированной длины, состоящую из цифр и букв.

Метаданные - данные о данных, которые включают информацию об их составе, содержании, статусе, происхождении, местонахождении, качестве, форматах, объеме, условиях доступа, авторских правах и т.п.

Парсер протокола - программа или часть программного кода, реализующая синтаксический разбор каких-либо входных данных.

Обфускация - приведение исходного кода или исполняемого кода программы к виду, сохраняющему ее функциональность, но затрудняющему анализ, понимание алгоритмов работы и модификацию при декомпиляции.

На чертеже представлена блок-схема способа хеширования файлов для быстрого поиска дубликатов.

Как видно из вышеуказанной блок-схемы, парсер протокола (какой это конкретно протокол\канал связи не важно) получает данные от внешних источников, например из сетевых коммуникаций - переписок в почте, мессенджерах, передачи браузерного траффика, сетевыми папками, из коммуникаций с устройствами - записи на USB, печати на принтере и т.д.

Парсер протокола выделяет сетевую часть, фильтрует служебный траффик и выделяет из траффика метаданные и файлы.

Метаданные - например, отправитель, получатель, время, ПК и т.д., и оригинал файла сохраняются в базу данных.

По базе данных проводится сканирование файлов, хеш для которых еще не рассчитан. Эти файлы подвергаются хешированию, при этом если файл менее заданного размера, например, 10 Мб, то файл хешируется полностью, а если размер файла больше заданного размера, например, 10 Мб, то хешируются его первый и/или последний блоки заданного размера, например по 10 Мб.

Так как в DLP систему в большинстве случаев поступают офисные документы и файлы относительно небольшого размера, то для таких файлов можно рассчитать хеш всего объема документа, зачастую такие файлы не превышают размер в 10Мб.

Расчет хеша для первого и/или последнего блока файла сокращает время необходимое на хеширование и способствует в том числе обфускации.

К полученному хешу добавляется размер файла, и полученный хеш сохраняется в базу данных с привязкой к файлу. Добавление размера файла к хешу влияет на безопасность системы, так как это уменьшает вероятность коллизий и улучшает защиту от атак на основе подбора хешей.

Далее по базе данных происходит выборка конкретных файлов при помощи интерфейса пользователя DLP системы, либо при автоматизированных проверках в DLP системе происходит быстрая выгрузка файлов по их хешам. При выборе файла из базы данных вычисляется его хеш и сравнивается с хешами других файлов. Соответственно, файлы с одинаковым хешем являются дубликатами по отношению друг к другу.

Похожие патенты RU2825549C1

название год авторы номер документа
СПОСОБ ОБРАБОТКИ АУДИОКОНТЕНТА И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2022
  • Пангаев Дмитрий Викторович
RU2797759C1
СПОСОБ И СИСТЕМА ДЛЯ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ НЕЧЕТКИХ ДУБЛИКАТОВ ВИДЕОКОНТЕНТА 2018
  • Слипенчук Павел Владимирович
RU2677368C1
ВЫПОЛНЕНИЕ ПАРАЛЛЕЛЬНОГО ПОВТОРНОГО ХЭШИРОВАНИЯ ХЕШ-ТАБЛИЦЫ ДЛЯ МНОГОПОТОЧНЫХ ПРИЛОЖЕНИЙ 2009
  • Малахов Антон Александрович
RU2517238C2
СПОСОБЫ И УСТРОЙСТВО ДЛЯ ЭФФЕКТИВНОЙ РЕАЛИЗАЦИИ БАЗЫ ДАННЫХ, ПОДДЕРЖИВАЮЩЕЙ БЫСТРОЕ КОПИРОВАНИЕ 2018
  • Бэрд, Лимон С.,Iii
  • Хармон, Манс
RU2740865C1
СПОСОБ И УСТРОЙСТВО ДЛЯ АНАЛИЗА ПАКЕТОВ ДАННЫХ 2012
  • Кнотт Кристоф
RU2601201C2
СПОСОБЫ И УСТРОЙСТВО ДЛЯ ЭФФЕКТИВНОЙ РЕАЛИЗАЦИИ БАЗЫ ДАННЫХ, ПОДДЕРЖИВАЮЩЕЙ БЫСТРОЕ КОПИРОВАНИЕ 2018
  • Бэрд, Лимон С., Iii
  • Хармон, Манс
RU2785613C2
АУТЕНТИФИКАЦИЯ В ЗАЩИЩЕННОЙ КОМПЬЮТЕРИЗОВАННОЙ ИГРОВОЙ СИСТЕМЕ 2003
  • Джексон Марк Д.
RU2302276C2
ГЕНОМНАЯ ИНФРАСТРУКТУРА ДЛЯ ЛОКАЛЬНОЙ И ОБЛАЧНОЙ ОБРАБОТКИ И АНАЛИЗА ДНК И РНК 2017
  • Ван Ройн, Питер
  • Макмиллен, Роберт Дж.
  • Рюле, Майкл
  • Мехьо, Рами
RU2761066C2
ГЕНОМНАЯ ИНФРАСТРУКТУРА ДЛЯ ЛОКАЛЬНОЙ И ОБЛАЧНОЙ ОБРАБОТКИ И АНАЛИЗА ДНК И РНК 2017
  • Ван Ройн, Питер
  • Макмиллен, Роберт Дж.
  • Рюле, Майкл
  • Мехьо, Рами
RU2804029C2
СПОСОБ ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ 2015
  • Рябоконь Владимир Владимирович
  • Лебеденко Евгений Викторович
RU2601191C1

Иллюстрации к изобретению RU 2 825 549 C1

Реферат патента 2024 года Способ хеширования файлов для быстрого поиска дубликатов

Изобретение относится к области вычислительной техники. Технический результат заключается в повышении быстродействия и точности поиска дубликатов файлов и снижении нагрузки на ЦПУ и систему хранения данных. Технический результат достигается за счет способа хеширования файлов для быстрого поиска дубликатов, который состоит из следующих этапов: парсер протокола получает оригиналы файлов и их метаданные от внешних источников; метаданные и оригиналы файлов сохраняются в базу данных; по базе данных проводится сканирование файлов, хеш для которых еще не рассчитан; файл, хеш для которого еще не рассчитан, подвергается хешированию, при этом если такой файл менее заданного размера, то файл хешируется полностью, а если размер файла больше заданного размера, то хешируются его первый или последний блоки заданного размера; к полученному хешу добавляется размер файла, и полученный хеш сохраняется в базу данных с привязкой к файлу; выборка конкретных файлов по базе данных в соответствии с их хешами и поиск дубликатов. 2 з.п. ф-лы, 1 ил.

Формула изобретения RU 2 825 549 C1

1. Способ хеширования файлов для быстрого поиска дубликатов, содержащий следующие этапы:

1) парсер протокола получает оригиналы файлов и их метаданные от внешних источников;

2) метаданные и оригиналы файлов сохраняются в базу данных;

3) по базе данных проводится сканирование файлов, хеш для которых еще не рассчитан;

4) файл, хеш для которого еще не рассчитан, подвергается хешированию, при этом если такой файл менее заданного размера, то он хешируется полностью, а если размер файла больше заданного размера, то хешируются его первый или последний блоки заданного размера;

5) к полученному хешу добавляется размер файла, и полученный хеш сохраняется в базу данных с привязкой к файлу;

6) выборка конкретных файлов по базе данных в соответствии с их хешами и поиск дубликатов.

2. Способ хеширования файлов для быстрого поиска дубликатов по п. 1, отличающийся тем, что если размер файла больше заданного размера, то хешируются его первый и последний блоки заданного размера.

3. Способ хеширования файлов для быстрого поиска дубликатов по п. 1, отличающийся тем, что если файл менее 10 Мб, то он хешируется полностью, а если размер файла больше 10 Мб размера, то хешируются его первый или последний блоки по 10 Мб.

Документы, цитированные в отчете о поиске Патент 2024 года RU2825549C1

Колосоуборка 1923
  • Беляков И.Д.
SU2009A1
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем 1924
  • Волынский С.В.
SU2012A1
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек 1923
  • Григорьев П.Н.
SU2007A1
Способ приготовления мыла 1923
  • Петров Г.С.
  • Таланцев З.М.
SU2004A1
СПОСОБ ХЕШИРОВАНИЯ ИНФОРМАЦИИ 2020
  • Иванов Михаил Александрович
  • Саликов Евгений Александрович
RU2747517C1

RU 2 825 549 C1

Авторы

Матвеев Лев Лазаревич

Даты

2024-08-27Публикация

2024-02-29Подача