Способ автоматизированного анализа векторных изображений Российский патент 2017 года по МПК G06T7/00 G06T3/00 G06K9/36 G06F17/30 

Описание патента на изобретение RU2633156C1

Область техники, к которой относится изобретение.

Изобретение относится к автоматизированному анализу векторных изображений и может быть использовано при разработке новых и совершенствовании существующих систем проверки векторных изображений на совпадение с эталонными векторными изображениями.

Уровень техники.

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, в т.ч. содержащих изображения, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в патенте России №2420800 (приоритет от 30.06.2009, опубл. 10.06.2011) раскрыт способ поиска похожих по смысловому содержимому электронных документов, в котором задают правила формирования уникальных слов, взвешиваются уникальные слова и связи между ними, строят на основе этого семантическую сеть и сравнивают семантические сети документов. Этот способ достаточно трудоемок и пригоден лишь в ограниченной области.

Известен способ индексации и поиска цифровых изображений (патент на изобретение РФ №2510935, приоритет от 23.09.2011, опубл. 10.04.2014). Способ, описанный в данном патенте, подходит для поиска изображений определенной категории, в том числе цветовой, но при этом не подходит для задачи поиска конкретного изображения в обширной базе данных, где может присутствовать много изображений с одинаковыми преобладающими цветами. Так как автор патента ставил задачу поиска изображений, подходящих под некоторое описание, он сам указал в качестве недостатка некоторых других методов тот факт, что они могут классифицировать изображения с похожими преобладающими цветами как совершенно различные. В то же время изобретение решает задачу поиска конкретного изображения с поправкой на искажения, возникающие при его сохранении в разных форматах и разных масштабах. При такой постановке задачи недостатком становится именно невозможность различить изображения с похожими характеристиками.

Раскрытие изобретения.

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в потоке данных векторные изображения, схожие с эталонными и который бы преодолевал недостатки известных решений.

Для решения этой задачи и получения указанного технического результата в изобретении предложен способ автоматизированного анализа векторных изображений, заключающийся в том, что:

1. Создают специализированную базу данных эталонных изображений, специализация которой заключается в том, что данные из эталонных изображений хранятся специальным образом. Для каждого хеш-значения, отражающего взаимное расположение двух примитивов из эталонного векторного изображения, создают записи вида:

<хеш> -> {список документов, в которых содержится этот хеш}

Для создания такой базы данных выполняют следующие шаги:

1) каждому эталонному изображению присваивают уникальный идентификатор;

2) каждый электронный файл эталонного векторного изображения преобразуют в заранее заданный формат, содержащий векторные примитивы (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);

3) выбирают некоторое подмножество из множества пар примитивов изображения;

4) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);

5) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 1.4 с помощью какой-либо хеш-функции;

6) вычисленный в п. 1.5 хэш добавляют в множество хеш-значений эталона;

7) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 1.3;

8) обходят все подготовленные эталонные документы и хеш-значением и идентификаторами эталонных документов заполняют специализированную базу данных и сохраняют ее;

9) в отдельную таблицу базы данных для каждого эталонного изображения сохраняют минимальные пороги срабатывания.

2. Когда на анализ поступает файл, содержащий векторное изображение, то производят следующие действия:

1) изображение преобразуют в заранее заданный формат (специально разработанный промежуточный формат, в который преобразуются векторные изображения из разных форматов, например dwg или cdw);

2) выбирают некоторое подмножество из множества пар примитивов изображения;

3) для каждой пары из выбранного подмножества вычисляют хеш-значение (подробнее описано ниже);

4) вычисляют хеш от какой-либо комбинации хеш-значений, полученных в п. 2.3 с помощью хеш-функции;

5) проверяют условие остановки, если оно выполнено, переходят к следующему пункту, иначе возвращаются к п. 2.2;

6) производят поиск полученных в п. 2.4 хэш-значений базе данных, полученной в п. 1, и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;

7) на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу (по формуле релевантности);

8) возвращают массив найденных идентификаторов эталонных документов, для которых был превышен порог релевантности.

3. Алгоритм вычисления хеш-значения для пар примитивов:

Пусть векторное изображение представлено в виде набора примитивов (отрезки, ломаные, дуги и т.д.),

Р - множество типов примитивов. Для каждой пары типов примитивов вводят функцию снятия отпечатка от пары примитивов:

f(T, Т) -> Н,

где Т - тип примитива (элемент множества Р),

Н - некоторое множество целых чисел (на практике - множество хеш-значений).

Физический смысл функций f - число, однозначно характеризующее взаимное расположение двух примитивов на векторном изображении. Функции должны быть устойчивы к повороту, сдвигу и масштабированию.

Изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

Способ автоматизированного анализа векторных изображений по изобретению предназначен для осуществления так называемого копирайтного анализа (английский аналог - fingerprint detection), задачей которого является установление схожести векторных изображений с изображениям, переданным ранее в базу данных (библиотеку) в качестве эталонных.

Похожие патенты RU2633156C1

название год авторы номер документа
Способ автоматизированного анализа растровых изображений 2016
  • Рябов Сергей Сергеевич
  • Степанов Виктор Сергеевич
RU2633159C1
СПОСОБ И СИСТЕМА КЛАСТЕРИЗАЦИИ ИСПОЛНЯЕМЫХ ФАЙЛОВ 2021
  • Померанцев Илья Сергеевич
RU2778979C1
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ТЕКСТОВЫХ ДОКУМЕНТОВ 2011
  • Лапшин Владимир Анатольевич
  • Пшехотская Екатерина Александровна
  • Перов Дмитрий Всеволодович
RU2474870C1
СПОСОБ И СИСТЕМА ДЛЯ ОБНОВЛЕНИЯ БАЗЫ ДАННЫХ ПОИСКОВОГО ИНДЕКСА 2018
  • Шлюнкин Алексей Валерьевич
  • Фокин Александр Павлович
  • Попов Петр Сергеевич
RU2733482C2
ЗАПЕЧАТЫВАНИЕ ДАННЫХ С ПОМОЩЬЮ АНКЛАВА ЗАПЕЧАТЫВАНИЯ 2017
  • Коста, Мануэль
RU2759329C2
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ 2013
  • Пшехотская Екатерина Александровна
  • Рябов Сергей Сергеевич
RU2581766C2
СИСТЕМА И СПОСОБ ДЛЯ ВЫБОРА ЗНАЧИМЫХ ЭЛЕМЕНТОВ СТРАНИЦЫ С НЕЯВНЫМ УКАЗАНИЕМ КООРДИНАТ ДЛЯ ИДЕНТИФИКАЦИИ И ПРОСМОТРА РЕЛЕВАНТНОЙ ИНФОРМАЦИИ 2015
  • Цыпляев Максим Викторович
  • Винокуров Никита Алексеевич
RU2708790C2
СПОСОБ ИДЕНТИФИКАЦИИ МАССИВОВ БИНАРНЫХ ДАННЫХ 2015
  • Рябоконь Владимир Владимирович
  • Лебеденко Евгений Викторович
RU2601191C1
СПОСОБ АВТОМАТИЧЕСКОЙ ИТЕРАТИВНОЙ КЛАСТЕРИЗАЦИИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ ПО СЕМАНТИЧЕСКОЙ БЛИЗОСТИ, СПОСОБ ПОИСКА В СОВОКУПНОСТИ КЛАСТЕРИЗОВАННЫХ ПО СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ДОКУМЕНТОВ И МАШИНОЧИТАЕМЫЕ НОСИТЕЛИ 2014
  • Клинцов Виктор Петрович
  • Селедкин Вячеслав Алексеевич
RU2556425C1
Рекомендательная система подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных и способ подбора персонала с использованием машинного обучения и с понижением размерности многомерных данных 2019
  • Даньщин Георгий Андреевич
  • Реушкин Виктор Викторович
  • Сидоров Александр Алексеевич
RU2711717C1

Реферат патента 2017 года Способ автоматизированного анализа векторных изображений

Изобретение относится к автоматизированному анализу векторных изображений. Технический результат – расширение арсенала технических средств посредством выявления схожих с эталоном векторных изображений. Способ автоматизированного анализа векторных изображений заключается в том, что: каждому эталонному векторному изображению присваивают уникальный идентификатор; каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы; для взаимного расположения примитивов вычисляют хеш-значения; хеш-значениями и идентификаторами эталонных документов заполняют базу данных; преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному; выбирают подмножество из множества пар примитивов изображения; для каждой пары вычисляют хеш-значение; производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и список факторов ранжирования для каждого такого документа; вычисляют степень совпадения с анализируемым документом по заранее заданному правилу; возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.

Формула изобретения RU 2 633 156 C1

Способ автоматизированного анализа векторных изображений, заключающийся в том, что:

- каждому эталонному векторному изображению присваивают уникальный идентификатор;

- каждый электронный файл эталонных векторных изображений преобразуют в заранее заданный формат, содержащий векторные примитивы;

- для взаимного расположения примитивов вычисляют хеш-значения;

- обходят все подготовленные эталонные документы, хеш-значениями и идентификаторами эталонных документов заполняют базу данных;

- сохраняют базу данных;

- преобразуют электронный файл анализируемого векторного изображения в заранее заданный формат, идентичный эталонному;

- выбирают некоторое подмножество из множества пар примитивов изображения;

- для каждой пары из выбранного подмножества вычисляют хеш-значение;

- производят поиск полученных вычисленных хеш-значений в базе данных и формируют список документов, в которых содержатся вычисленные хеш-значения и некоторый список факторов ранжирования для каждого такого документа;

- на основе полученных факторов для каждого эталонного документа вычисляют степень совпадения с анализируемым документом по некоторому заранее заданному правилу;

- возвращают массив найденных идентификаторов эталонных векторных изображений, для которых был превышен порог релевантности.

Документы, цитированные в отчете о поиске Патент 2017 года RU2633156C1

US 7421128 B2, 02.09.2008
US 7647331 B2, 12.01.2010
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок 1923
  • Григорьев П.Н.
SU2008A1
Пломбировальные щипцы 1923
  • Громов И.С.
SU2006A1
СПОСОБ ИНДЕКСАЦИИ И ПОИСКА ЦИФРОВЫХ ИЗОБРАЖЕНИЙ 2011
  • Игнатов Артем Константинович
RU2510935C2
СПОСОБ ПОИСКА ПОХОЖИХ ПО СМЫСЛОВОМУ СОДЕРЖИМОМУ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ 2009
  • Бородащенко Антон Юрьевич
  • Бочков Сергей Максимович
  • Васинев Дмитрий Александрович
  • Салбиев Артем Леонидович
RU2420800C2

RU 2 633 156 C1

Авторы

Рябов Сергей Сергеевич

Никифоров Анатолий Сергеевич

Коробов Дмитрий Александрович

Даты

2017-10-11Публикация

2016-10-12Подача