Показать метаданные Скрыть метаданные

(19)

(11)

2 633 156

(13)

(51)

МПК

G06T7/00(2006-01-01)

G06T3/00(2006-01-01)

G06K9/36(2006-01-01)

G06F17/30(2006-01-01)

(21) (22)

Заявка

2016140157, 2016-10-12

(24)

Дата начала отсчета патента

2016-10-12

(22)

дата подачи заявки

2016-10-12

(45)

опубликовано

2017-10-11

(72)

авторы

Рябов Сергей СергеевичНикифоров Анатолий СергеевичКоробов Дмитрий Александрович

(73)

патентообладатели

Общество С Ограниченной Ответственностью Инфовотч"

(56)

Документы, цитированные в отчете о поиске

US 7421128 B2, 02.09.2008US 7647331 B2, 12.01.2010

Способ автоматизированного анализа векторных изображений Российский патент 2017 года по МПК G06T7/00 G06T3/00 G06K9/36 G06F17/30

Описание патента на изобретение RU2633156C1

Область техники, к которой относится изобретение.

Изобретение относится к автоматизированному анализу векторных изображений и может быть использовано при разработке новых и совершенствовании существующих систем проверки векторных изображений на совпадение с эталонными векторными изображениями.

Уровень техники.

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, в т.ч. содержащих изображения, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в патенте России №2420800 (приоритет от 30.06.2009, опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных документов, в котором задают правила формирования уникальных слов, взвешиваются уникальные слова и связи между ними, строят на основе этого семантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоемок и пригоден лишь в ограниченной области.

Известен способ индексации и поиска цифровых изображений (патент на изобретение РФ №2510935, приоритет от 23.09.2011, опубл. 10.04.2014). Способ, описанный в данном патенте, подходит для поиска изображений определенной категории, в том числе цветовой, но при этом не подходит для задачи поиска конкретного изображения в обширной базе данных, где может присутствовать много изображений с одинаковыми преобладающими цветами. Так как автор патента ставил задачу поиска изображений, подходящих под некоторое описание, он сам указал в качестве недостатка некоторых других методов тот факт, что они могут классифицировать изображения с похожими преобладающими цветами как совершенно различные. В то же время изобретение решает задачу поиска конкретного изображения с поправкой на искажения, возникающие при его сохранении в разных форматах и разных масштабах. При такой постановке задачи недостатком становится именно невозможность различить изображения с похожими характеристиками.

Раскрытие изобретения.

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в потоке данных векторные изображения, схожие с эталонными и который бы преодолевал недостатки известных решений.

Для решения этой задачи и получения указанного технического результата в изобретении предложен способ автоматизированного анализа векторных изображений, заключающийся в том, что:

1. Создают специализированную базу данных эталонных изображений, специализация которой заключается в том, что данные из эталонных изображений хранятся специальным образом. Для каждого хеш-значения, отражающего взаимное расположение двух примитивов из эталонного векторного изображения, создают записи вида:

<хеш> -> {список документов, в которых содержится этот хеш}

Для создания такой базы данных выполняют следующие шаги:

1) каждому эталонному изображению присваивают уникальный идентификатор;

2) каждый электронный файл эталонного векторного изображения преобразуют в заранее заданный формат, содержащий векторные примитивы (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);

3) выбирают некоторое подмножество из множества пар примитивов изображения;

4) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);

5) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 1.4 с помощью какой-либо хеш-функции;

6) вычисленный в п. 1.5 хэш добавляют в множество хеш-значений эталона;

7) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 1.3;

8) обходят все подготовленные эталонные документы и хеш-значением и идентификаторами эталонных документов заполняют специализированную базу данных и сохраняют ее;

9) в отдельную таблицу базы данных для каждого эталонного изображения сохраняют минимальные пороги срабатывания.

2. Когда на анализ поступает файл, содержащий векторное изображение, то производят следующие действия:

1) изображение преобразуют в заранее заданный формат (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);

2) выбирают некоторое подмножество из множества пар примитивов изображения;

3) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);

4) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 2.3 с помощью хеш-функции;

5) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 2.2;

6) производят поиск полученных в п. 2.4 хэш-значений базе данных, полученной в п. 1, и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;

7) на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу (по формуле релевантности);

8) возвращают массив найденных идентификаторов эталонных документов, для которых был превышен порог релевантности.

3. Алгоритм вычисления хеш-значения для пар примитивов:

Пусть векторное изображение представлено в виде набора примитивов (отрезки, ломаные, дуги и т.д.),

Р - множество типов примитивов. Для каждой пары типов примитивов вводят функцию снятия отпечатка от пары примитивов:

f(T, Т) -> Н,

где Т - тип примитива (элемент множества Р),

Н - некоторое множество целых чисел (на практике - множество хеш-значений).

Физический смысл функций f - число, однозначно характеризующее взаимное расположение двух примитивов на векторном изображении. Функции должны быть устойчивы к повороту, сдвигу и масштабированию.

Изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

Способ автоматизированного анализа векторных изображений по изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести векторных изображений с изображениям, переданным ранее в базу данных (библиотеку) в качестве эталонных.

Реферат патента 2017 года Способ автоматизированного анализа векторных изображений

Изобретение относится к автоматизированному анализу векторных изображений. Технический результат – расширение арсенала технических средств посредством выявления схожих с эталоном векторных изображений. Способ автоматизированного анализа векторных изображений заключается в том, что: каждому эталонному векторному изображению присваивают уникальный идентификатор; каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы; для взаимного расположения примитивов вычисляют хеш-значения; хеш-значениями и идентификаторами эталонных документов заполняют базу данных; преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному; выбирают подмножество из множества пар примитивов изображения; для каждой пары вычисляют хеш-значение; производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и список факторов ранжирования для каждого такого документа; вычисляют степень совпадения с анализируемым документом по заранее заданному правилу; возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.

Формула изобретения RU 2 633 156 C1

Способ автоматизированного анализа векторных изображений, заключающийся в том, что:

- каждому эталонному векторному изображению присваивают уникальный идентификатор;

- каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы;

- для взаимного расположения примитивов вычисляют хеш-значения;

- обходят все подготовленные эталонные документы, хеш-значениями и идентификаторами эталонных документов заполняют базу данных;

- сохраняют базу данных;

- преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному;

- выбирают некоторое подмножество из множества пар примитивов изображения;

- для каждой пары из выбранного подмножества вычисляют хеш-значение;

- производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;

- на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу;

- возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.

Документы, цитированные в отчете о поиске Патент 2017 года RU2633156C1

US 7421128 B2, 02.09.2008
US 7647331 B2, 12.01.2010
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок	1923	Григорьев П.Н.	SU2008A1
Пломбировальные щипцы	1923	Громов И.С.	SU2006A1
СПОСОБ ИНДЕКСАЦИИ И ПОИСКА ЦИФРОВЫХ ИЗОБРАЖЕНИЙ	2011	Игнатов Артем Константинович	RU2510935C2
СПОСОБ ПОИСКА ПОХОЖИХ ПО СМЫСЛОВОМУ СОДЕРЖИМОМУ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ	2009	Бородащенко Антон Юрьевич Бочков Сергей Максимович Васинев Дмитрий Александрович Салбиев Артем Леонидович	RU2420800C2

RU 2 633 156 C1

Авторы

Рябов Сергей Сергеевич

Никифоров Анатолий Сергеевич

Коробов Дмитрий Александрович

Даты

2017-10-11—Публикация

2016-10-12—Подача

название	год	авторы	номер документа
Способ автоматизированного анализа растровых изображений	2016	Рябов Сергей Сергеевич Степанов Виктор Сергеевич	RU2633159C1
СПОСОБ И СИСТЕМА КЛАСТЕРИЗАЦИИ ИСПОЛНЯЕМЫХ ФАЙЛОВ	2021	Померанцев Илья Сергеевич	RU2778979C1
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ	2011	Лапшин Владимир Анатольевич Пшехотская Екатерина Александровна Перов Дмитрий Всеволодович	RU2474870C1
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ	2013	Пшехотская Екатерина Александровна Рябов Сергей Сергеевич	RU2581766C2
СПОСОБ ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ	2015	Рябоконь Владимир Владимирович Лебеденко Евгений Викторович	RU2601191C1
СПОСОБ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ ВЫЯВЛЕНИЯ ПОДОЗРИТЕЛЬНЫХ ПОЛЬЗОВАТЕЛЕЙ В СИСТЕМАХ ОБМЕНА СООБЩЕНИЯМИ	2018	Калинин Александр Сергеевич Астанов Зафар Тахирович	RU2708508C1
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ	2013	Пшехотская Екатерина Александровна Рябов Сергей Сергеевич	RU2546583C2
ЗАПЕЧАТЫВАНИЕ ДАННЫХ С ПОМОЩЬЮ АНКЛАВА ЗАПЕЧАТЫВАНИЯ	2017	Коста, Мануэль	RU2759329C2
СПОСОБ АВТОМАТИЧЕСКОГО АНАЛИЗА ВЫГРУЗОК ИЗ БАЗ ДАННЫХ	2024	Рябов Сергей Сергеевич Хапова Любовь Сергеевна Клевцов Александр Анатольевич	RU2821442C1
СПОСОБ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ ИНФОРМИРОВАНИЯ О ВРЕДОНОСНЫХ ВЕБ-РЕСУРСАХ	2018	Калинин Александр Сергеевич	RU2701040C1