Область техники, к которой относится изобретение.
Изобретение относится к автоматизированному анализу векторных изображений и может быть использовано при разработке новых и совершенствовании существующих систем проверки векторных изображений на совпадение с эталонными векторными изображениями.
Уровень техники.
В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, в т.ч. содержащих изображения, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.
В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.
Например, в патенте России №2420800 (приоритет от 30.06.2009, опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных документов, в котором задают правила формирования уникальных слов, взвешиваются уникальные слова и связи между ними, строят на основе этого семантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоемок и пригоден лишь в ограниченной области.
Известен способ индексации и поиска цифровых изображений (патент на изобретение РФ №2510935, приоритет от 23.09.2011, опубл. 10.04.2014). Способ, описанный в данном патенте, подходит для поиска изображений определенной категории, в том числе цветовой, но при этом не подходит для задачи поиска конкретного изображения в обширной базе данных, где может присутствовать много изображений с одинаковыми преобладающими цветами. Так как автор патента ставил задачу поиска изображений, подходящих под некоторое описание, он сам указал в качестве недостатка некоторых других методов тот факт, что они могут классифицировать изображения с похожими преобладающими цветами как совершенно различные. В то же время изобретение решает задачу поиска конкретного изображения с поправкой на искажения, возникающие при его сохранении в разных форматах и разных масштабах. При такой постановке задачи недостатком становится именно невозможность различить изображения с похожими характеристиками.
Раскрытие изобретения.
Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в потоке данных векторные изображения, схожие с эталонными и который бы преодолевал недостатки известных решений.
Для решения этой задачи и получения указанного технического результата в изобретении предложен способ автоматизированного анализа векторных изображений, заключающийся в том, что:
1. Создают специализированную базу данных эталонных изображений, специализация которой заключается в том, что данные из эталонных изображений хранятся специальным образом. Для каждого хеш-значения, отражающего взаимное расположение двух примитивов из эталонного векторного изображения, создают записи вида:
<хеш> -> {список документов, в которых содержится этот хеш}
Для создания такой базы данных выполняют следующие шаги:
1) каждому эталонному изображению присваивают уникальный идентификатор;
2) каждый электронный файл эталонного векторного изображения преобразуют в заранее заданный формат, содержащий векторные примитивы (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);
3) выбирают некоторое подмножество из множества пар примитивов изображения;
4) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);
5) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 1.4 с помощью какой-либо хеш-функции;
6) вычисленный в п. 1.5 хэш добавляют в множество хеш-значений эталона;
7) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 1.3;
8) обходят все подготовленные эталонные документы и хеш-значением и идентификаторами эталонных документов заполняют специализированную базу данных и сохраняют ее;
9) в отдельную таблицу базы данных для каждого эталонного изображения сохраняют минимальные пороги срабатывания.
2. Когда на анализ поступает файл, содержащий векторное изображение, то производят следующие действия:
1) изображение преобразуют в заранее заданный формат (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);
2) выбирают некоторое подмножество из множества пар примитивов изображения;
3) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);
4) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 2.3 с помощью хеш-функции;
5) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 2.2;
6) производят поиск полученных в п. 2.4 хэш-значений базе данных, полученной в п. 1, и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;
7) на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу (по формуле релевантности);
8) возвращают массив найденных идентификаторов эталонных документов, для которых был превышен порог релевантности.
3. Алгоритм вычисления хеш-значения для пар примитивов:
Пусть векторное изображение представлено в виде набора примитивов (отрезки, ломаные, дуги и т.д.),
Р - множество типов примитивов. Для каждой пары типов примитивов вводят функцию снятия отпечатка от пары примитивов:
f(T, Т) -> Н,
где Т - тип примитива (элемент множества Р),
Н - некоторое множество целых чисел (на практике - множество хеш-значений).
Физический смысл функций f - число, однозначно характеризующее взаимное расположение двух примитивов на векторном изображении. Функции должны быть устойчивы к повороту, сдвигу и масштабированию.
Изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.
Способ автоматизированного анализа векторных изображений по изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести векторных изображений с изображениям, переданным ранее в базу данных (библиотеку) в качестве эталонных.
название | год | авторы | номер документа |
---|---|---|---|
Способ автоматизированного анализа растровых изображений | 2016 |
|
RU2633159C1 |
СПОСОБ И СИСТЕМА КЛАСТЕРИЗАЦИИ ИСПОЛНЯЕМЫХ ФАЙЛОВ | 2021 |
|
RU2778979C1 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ | 2011 |
|
RU2474870C1 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ | 2013 |
|
RU2581766C2 |
СПОСОБ ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ | 2015 |
|
RU2601191C1 |
СПОСОБ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ ВЫЯВЛЕНИЯ ПОДОЗРИТЕЛЬНЫХ ПОЛЬЗОВАТЕЛЕЙ В СИСТЕМАХ ОБМЕНА СООБЩЕНИЯМИ | 2018 |
|
RU2708508C1 |
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ | 2013 |
|
RU2546583C2 |
ЗАПЕЧАТЫВАНИЕ ДАННЫХ С ПОМОЩЬЮ АНКЛАВА ЗАПЕЧАТЫВАНИЯ | 2017 |
|
RU2759329C2 |
СПОСОБ АВТОМАТИЧЕСКОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ | 2024 |
|
RU2821442C1 |
СПОСОБ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ ИНФОРМИРОВАНИЯ О ВРЕДОНОСНЫХ ВЕБ-РЕСУРСАХ | 2018 |
|
RU2701040C1 |
Изобретение относится к автоматизированному анализу векторных изображений. Технический результат – расширение арсенала технических средств посредством выявления схожих с эталоном векторных изображений. Способ автоматизированного анализа векторных изображений заключается в том, что: каждому эталонному векторному изображению присваивают уникальный идентификатор; каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы; для взаимного расположения примитивов вычисляют хеш-значения; хеш-значениями и идентификаторами эталонных документов заполняют базу данных; преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному; выбирают подмножество из множества пар примитивов изображения; для каждой пары вычисляют хеш-значение; производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и список факторов ранжирования для каждого такого документа; вычисляют степень совпадения с анализируемым документом по заранее заданному правилу; возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.
Способ автоматизированного анализа векторных изображений, заключающийся в том, что:
- каждому эталонному векторному изображению присваивают уникальный идентификатор;
- каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы;
- для взаимного расположения примитивов вычисляют хеш-значения;
- обходят все подготовленные эталонные документы, хеш-значениями и идентификаторами эталонных документов заполняют базу данных;
- сохраняют базу данных;
- преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному;
- выбирают некоторое подмножество из множества пар примитивов изображения;
- для каждой пары из выбранного подмножества вычисляют хеш-значение;
- производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;
- на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу;
- возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.
US 7421128 B2, 02.09.2008 | |||
US 7647331 B2, 12.01.2010 | |||
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
СПОСОБ ИНДЕКСАЦИИ И ПОИСКА ЦИФРОВЫХ ИЗОБРАЖЕНИЙ | 2011 |
|
RU2510935C2 |
СПОСОБ ПОИСКА ПОХОЖИХ ПО СМЫСЛОВОМУ СОДЕРЖИМОМУ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ | 2009 |
|
RU2420800C2 |
Авторы
Даты
2017-10-11—Публикация
2016-10-12—Подача