Способ нейросетевого контроля текстовых данных на изображениях документов Российский патент 2023 года по МПК G06V30/00 

Описание патента на изобретение RU2806012C1

Заявленное техническое решение относится к области проверки, специально предназначенной для определения идентичности, или подлинности бумажных денег или аналогичных ценных бумаг, или для отделения чужеродных купюр или иных, отличных от проверяемых, в частности к способу нейросетевого контроля текстовых данных на изображениях документов.

Из уровня техники известны различные нейросетевые детекторы шрифтов, способные осуществлять контроль типа шрифта, представленного на изображении текстового поля. Помимо детекторов контроля типа шрифта существуют также нейросетевые подходы, осуществляющие контроль конкретных свойств шрифта, например, моноширинности. Так, в источнике информации (см. Chirvonaya, Anastasiya N., Alexander V. Sheshkus, and Vladimir L. Arlazarov. "Monospaced font detection using character segmentation and Fourier transform." Twelfth International Conference on Machine Vision (ICMV 2019). Vol.11433. SPIE, 2020) раскрыт метод, который позволяет детектировать моноширинность шрифтов, основываясь на сегментирующей нейронной сети и преобразовании Фурье.

Однако у известных подходов есть следующие недостатки:

- невозможность применения детекторов к изображениям текстовых полей произвольного размера в силу выбранных архитектур нейросетей;

- неприменимость к случаям частичного нарушения однородности свойств текстовых полей, что не дает возможность использовать для выявления поддельных и бракованных документов;

- отсутствие информации о том, где конкретно на изображении присутствует аномалия в случае ее наличия;

- отсутствие обобщенного подхода к методу контроля нанесения данных, способного определять свойства текстовых полей различного характера.

Также существуют методы определения шрифтов, основанные на типографических особенностях документов (см. Zramdini, Abdelwahab, and Rolf Ingold. "Optical font recognition using typographical features." IEEE Transactions on pattern analysis and machine intelligence 20.8 (1998): 877-882), текстурном анализе (см. Zhu, Yong, Tieniu Tan, and Yunhong Wang. "Font recognition based on global texture analysis." IEEE Transactions on pattern analysis and machine intelligence 23.10 (2001): 1192-1200) и др. Подобные методы имеют существенный недостаток в виде отсутствия устойчивости к неидеальности изображений.

В итоге, при работе с различными особенностями нанесения текстовых данных, например, в документах, появляется необходимость в обобщенном подходе к методу контроля нанесения данных на основе нейросетевого детектора контроля текстовых данных документов.

Задачей заявленного изобретения является устранение недостатков известного уровня техники. Технический результат заключается в обеспечении способа нейросетевого контроля текстовых данных на изображениях документов, который позволяет обеспечить возможность применять его к особенностям текстовых данных различного характера и осуществлять их контроль, возможность применения к изображениям любого размера, а также способность выявлять наличие и расположения частичных нарушений однородности рассматриваемых свойств в случае их наличия.

Поставленная задача решается, а заявленный технический результат достигается посредством заявленного способа нейросетевого контроля текстовых данных на изображениях документов.

На фигурах представлены:

Фиг. 1: а) Изображение документа немецкой идентификационной карты; б) Текстовое поле, выполненное при помощи лазерной гравировки с тактильным эффектом; в) Текстовые поля, выполненные техникой обычной печати Фиг.2: а) Пример шрифта, используемого в британских водительских правах; б) Пример шрифта, используемого в немецких идентификационных картах; в) Пример шрифта, используемого в филиппинских идентификационных картах

Фиг. 3: Пример текстового поля документа, выполненного лазерной гравировкой

Фиг. 4: Пример текстового поля документа, выполненного лазерной перфорацией

Фиг. 5: Блок-схема работы алгоритма

Фиг. 6: а) Пример текстового поля, выполненного лазерной гравировкой; б) Пример детектирования аномалии

Фиг. 7: Пример текстовых полей, распознанных верно как выполненные лазерной гравировкой

Фиг. 8: Пример верно распознанных текстовых полей, выполненных обычной техникой печати

Фиг. 9: Пример верно распознанных текстовых полей, выполненных с помощью шрифта OCR-A

Фиг. 10: Пример верно распознанных текстовых полей, выполненных с помощью латинских шрифтов (не OCR-A)

При изготовлении документов, удостоверяющих личность, зачастую используются различные способы нанесения текстовой информации. В зависимости от способа нанесения, соответствующее текстовое поле обладает различными свойствами, которые могут быть визуально наблюдаемы и проверяемы на изображениях документа.

На фиг. 1 приведен пример удостоверяющего документа (немецкая идентификационная карта), у которой разные поля нанесены разным способом, вследствие чего обладают разными свойствами: лазерная гравировка текста (см. фиг. 1б), обычная техника печати (см. фиг. 1в).

Техника нанесения текстовых полей с помощью принтера применяется на паспортах, свидетельствах о рождении и т.д. Данный способ нанесения распространен из-за простоты оборудования. Однако с другой стороны такие поля являются наиболее незащищенными. Для проверки таких текстовых полей используется анализ шрифта: анализ типа, кегля, наклона, жирности, межсимвольного интервала и также цвета чернил. На фиг. 2 представлены примеры разных шрифтов, используемых в документах различных стран.

Техника лазерной гравировки (laser engraving) - это метод нанесения текстовых полей документов, который позволяет гравировать элементы поверхности документа черным материалом (см. фиг. 3). Это обеспечивает высокую надежность персонализации, что сильно усложняет подделку и различные манипуляции с документом. Попытки изменить выгравированную информацию приведут к визуально очевидным повреждениям документа.

Техника лазерной перфорация (laser perforation) - метод нанесения текстовых данных на документы, который позволяет выжечь в бумаге отверстия с помощью тонкого лазерного луча по определенному шаблону.

Диаметр перфорированных лазером отверстий плавно уменьшается от первой перфорированной страницы документа к последней. По краям отверстий видны следы обгорания, оставленные лазерным лучом. Отверстия могут различаться по форме: круглые, треугольные, квадратные, звездообразные и т.д. (см. фиг. 4).

Осуществление изобретения.

Пусть на вход подается входное изображение ƒ текстового поля (например, фиг. 1б) документа. Пусть для изображения ƒ известно, что в оригинальном документе текстовая информация на нем обладает свойством А. Также известна ширина Wf изображения ƒ текстового поля.

Необходимо проконтролировать наличие свойства А у рассматриваемого изображения ƒ текстового поля.

Описание алгоритма работы нейросетевого детектора

Параметры алгоритма следующие:

• Ws - минимальная ширина для детектирования аномалии;

• Т - минимальный порог для детекции класса при поиске аномалии шириной больше, чем Ws;

Рассматривается изображение ƒ в цветовом пространстве RGB, содержащее текстовое поле (Рис. 1б) документа.

На выходе ожидается ответ нейросетевого детектора: имеет ли рассматриваемое текстовое поле особенность (такому случаю присваивается класс

А) или не имеет (класс ).

Входное поле ƒ обрабатывается нейросетевым детектором контроля текстовых данных по следующему алгоритму:

1. Изображение поля ƒ преобразуется в одноканальное, после чего поступает на вход обученной полносверточной нейронной сети (архитектура представлена в Таблице 1).

2. На выходе нейронная сеть ставит в соответствие для каждой вертикальной линии, соответствующей середине рецептивного поля, значения и wA - оценки уверенности для 2 возможных классов:

• класс при котором свойство в текстовом поле отсутствует;

• класс А, при котором свойство в текстовом поле присутствует.

3. Происходит подсчет сумм и SA значений оценок уверенности для 2 возможных классов по всем вертикальным линиям изображения ƒ текстового поля:

4. Происходит проверка на наличие в ƒ аномалии.

Назовем аномалией ситуацию, при которой в текстовом поле ƒ была частично нарушена однородность свойства А текстового поля. Например, такая ситуация рассмотрена в примере (Рис. 6б), где в качестве свойства А рассматривается лазерная гравировка.

Детектирование аномалии происходит по следующему принципу:

1) Выполняется поиск максимально возможной длины L аномалии в изображении ƒ текстового поля, при условии

2) Аномалия найдена в случае, если L≥Ws.

5. Если в рассматриваемом текстовом поле аномалия не найдена, то изображение ƒ рассматриваемого текстового поля обладает свойством А, если

Если в рассматриваемом текстовом поле аномалия найдена, то изображение ƒ текстового поля считается обладающим свойством А при наличии аномалии, если выполнено условие

В других случаях изображение ƒ текстового поля не обладает свойством А.

Реализация нейросетевого детектора

Детектор обучен на основе полносверточной нейронной сети с архитектурой, представленной в Таблице 1. При обучении сети на вход подавались одноканальные изображения 77x27 пикселей, на выходе сети ожидаются псевдовероятности принадлежности двум возможным классам: текстовые данные имеют свойство А или не имеют этого свойства.

Визуализация работы алгоритма

Для удобства визуального восприятия работы детектора каждому полю на рисунках (см. фиг. 6, 7, 8, 9, 10) соответствует график снизу, где для наглядности горизонтальная красная полоса отвечает за значение оценки уверенности (псевдовероятность) равному 0.5, а по вертикальной оси расположены значения оценок уверенности значения wA от 0 до 1. Так как используемая в работе архитектура сети (Таблица 1) полносверточная, на вход обученной сети может быть подано изображение любой ширины. Таким образом, при детектировании аномалий (Рис. 6б) полносверточный алгоритм способен не только определить их наличие, но и указать в каких частях рассматриваемого изображения текстовой строки эти аномалии находятся.

Таким образом, заявленный способ позволяет осуществить контроль особенностей и свойств изображений текстовых полей на документе, а также: Такой метод позволит:

- усилить контроль качества и выявить по изображениям бракованные документы;

- подтвердить подлинность документа по его изображению.

Пример 1.

В качестве свойства А был рассмотрен один из способов нанесения текстовых данных - техника лазерной гравировки (Рис. 1б). Представленный в работе нейросетевой детектор был обучен на изображениях текстовых полей, имеющих это свойство, например, изображения текстовых полей немецких идентификационных карт, а также текстовых полей, не имеющих этого свойства. На Рис. 7 и Рис. 8 представлена визуализация результатов работы обученного нейросетевого детектора контроля текстовых данных, нанесенных лазерной гравировкой.

Пример 2.

В качестве свойства А текстовых данных был рассмотрен шрифт OCR-A (Рис. 2в). Представленный в работе нейросетевой детектор был обучен на синтетических данных, состоящих из изображений текстовых данных, выполненных с использованием шрифта OCR-A и других латинских шрифтов. На Рис. 9 и Рис. 10 представлена визуализация результата работы обученного нейросетевого детектора контроля текстовых данных, выполненных с использованием шрифта OCR-A.

Пример 3 (детекция аномалии)

Рассмотрим работу алгоритма в случае примера 1, когда в поле ƒ была частично нарушена однородность свойства, т.е. заменена не вся информация, а лишь ее часть. В показанном примере (Рис. 6б) текстовое поле по краям осталось прежним, т.е. выполнено лазерной гравировкой, а центральная часть была заменена на обычные плоские цифры без лазерной гравировки.

Пусть порог Т=0.85. В таком случае получившаяся длина аномалии L≥Ws=> аномалия найдена, а сумма оценок уверенности удовлетворяет условию а значит текстовое поле ƒ имеет свойства А при наличии аномалии.

Похожие патенты RU2806012C1

название год авторы номер документа
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрофотоснимков видимого и дальнего инфракрасного диапазонов с целью обнаружения, локализации и классификации строений вне населенных пунктов 2020
  • Балакчин Виктор Сергеевич
  • Балакчина Анастасия Викторовна
  • Гасникова Евгения Владимировна
  • Благушина Лариса Желалудиновна
  • Гаврилов Дмитрий Александрович
  • Гамиловский Сергей Витальевич
  • Еременко Артем Геннадьевич
  • Гутор Мария Александровна
  • Ефанов Николай Николаевич
  • Ефимов Вячеслав Юрьевич
  • Каврецкий Илья Леонидович
  • Косицын Владимир Петрович
  • Лапушкин Андрей Георгиевич
  • Маслов Дмитрий Александрович
  • Местецкий Александр Моисеевич
  • Местецкий Леонид Моисеевич
  • Пунь Андрей Богданович
  • Родионов Павел Борисович
  • Семенов Андрей Борисович
  • Соколов Глеб Михайлович
  • Татаринова Елена Александровна
  • Федоров Андрей Владимирович
  • Фонин Владимир Николаевич
  • Фонин Юрий Николаевич
  • Фортунатов Антон Александрович
RU2747214C1
СПОСОБ РАСПОЗНАВАНИЯ ХИМИЧЕСКОЙ ИНФОРМАЦИИ ИЗ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2021
  • Хохлов Иван Сергеевич
  • Краснов Лев Валерьевич
  • Федоров Максим Валериевич
  • Соснин Сергей Борисович
RU2774665C1
СИСТЕМА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЯ: BEORG SMART VISION 2020
  • Зуев Георгий Алексеевич
  • Колосов Антон Александрович
RU2777354C2
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники 2020
  • Балакчин Виктор Сергеевич
  • Балакчина Анастасия Викторовна
  • Гасникова Евгения Владимировна
  • Благушина Лариса Желалудиновна
  • Гаврилов Дмитрий Александрович
  • Гамиловский Сергей Витальевич
  • Еременко Артем Геннадьевич
  • Гутор Мария Александровна
  • Ефанов Николай Николаевич
  • Ефимов Вячеслав Юрьевич
  • Каврецкий Илья Леонидович
  • Косицын Владимир Петрович
  • Лапушкин Андрей Георгиевич
  • Маслов Дмитрий Александрович
  • Местецкий Александр Моисеевич
  • Местецкий Леонид Моисеевич
  • Пунь Андрей Богданович
  • Родионов Павел Борисович
  • Семенов Андрей Борисович
  • Соколов Глеб Михайлович
  • Татаринова Елена Александровна
  • Федоров Андрей Владимирович
  • Фонин Владимир Николаевич
  • Фонин Юрий Николаевич
  • Фортунатов Антон Александрович
RU2747044C1
ОБУЧЕНИЕ НЕЙРОННОЙ СЕТИ ПОСРЕДСТВОМ СПЕЦИАЛИЗИРОВАННЫХ ФУНКЦИЙ ПОТЕРЬ 2018
  • Журавлев Алексей Алексеевич
RU2707147C1
МЕТОД И СИСТЕМА ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ИЗОБРАЖЕНИЙ СЛАБОСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ 2015
  • Костюков Михаил Валериевич
RU2613846C2
СПОСОБ РЕНТГЕНОВСКОЙ ТОМОГРАФИИ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2012
  • Сырямкин Владимир Иванович
  • Буреев Артем Шамильевич
  • Васильев Александр Владимирович
  • Глушков Глеб Сергеевич
  • Богомолов Евгений Николаевич
  • Бразовский Василий Владимирович
  • Шидловский Станислав Викторович
  • Горбачев Сергей Викторович
  • Бородин Владимир Алексеевич
  • Осипов Артем Владимирович
  • Шидловский Виктор Станиславович
  • Осипов Юрий Мирзоевич
  • Осипов Олег Юрьевич
  • Ткач Александр Александрович
  • Повторев Владимир Михайлович
RU2505800C2
ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБРАБОТКИ ИЗОБРАЖЕНИЙ С ПОМОЩЬЮ СИНТЕТИЧЕСКИХ ФОТОРЕАЛИСТИЧНЫХ СОДЕРЖАЩИХ ЗНАКИ ИЗОБРАЖЕНИЙ 2018
  • Загайнов Иван Германович
  • Борин Павел Валерьевич
RU2709661C1
ИДЕНТИФИКАЦИЯ ПОЛЕЙ И ТАБЛИЦ В ДОКУМЕНТАХ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ С ИСПОЛЬЗОВАНИЕМ ГЛОБАЛЬНОГО КОНТЕКСТА ДОКУМЕНТА 2019
  • Семенов Станислав Владимирович
RU2723293C1
ОБУЧЕНИЕ ЯЗЫКОВЫХ МОДЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ ТЕКСТОВЫХ КОРПУСОВ, СОДЕРЖАЩИХ РЕАЛИСТИЧНЫЕ ОШИБКИ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ (OCR) 2019
  • Загайнов Иван Германович
RU2721187C1

Иллюстрации к изобретению RU 2 806 012 C1

Реферат патента 2023 года Способ нейросетевого контроля текстовых данных на изображениях документов

Изобретение относится к способу нейросетевого контроля текстовых данных на изображениях документов. Технический результат заключается в обеспечении контроля текстовых данных на изображениях документов. В способе осуществляют подачу на вход входного изображения f текстового поля, причем для изображения f известно, что в оригинальном документе текстовая информация на нем обладает свойством А, также известна ширина Wf изображения f текстового поля, при этом входное поле изображения f в цветном пространстве RGB, содержащее текстовое поле документа, обрабатывают нейросетевым детектором контроля текстовых данных по следующему алгоритму: изображение поля f преобразуют в одноканальное, после чего поступает на вход обученной полносверточной нейронной сети; на выходе нейронная сеть ставит в соответствие для каждой вертикальной линии, соответствующей середине рецептивного поля, значения и wA - оценки уверенности для 2 возможных классов: класс при котором свойство в текстовом поле отсутствует; класс А, при котором свойство в текстовом поле присутствует; производят подсчет сумм и SA значений оценок уверенности для 2 возможных классов по всем вертикальным линиям изображения ƒ текстового поля:производят проверку на наличие в f аномалии, при этом если в рассматриваемом текстовом поле аномалия не найдена, то изображение ƒ рассматриваемого текстового поля обладает свойством А, если если в рассматриваемом текстовом поле аномалия найдена, то изображение f текстового поля считается обладающим свойством А при наличии аномалии, если выполнено условие в других случаях изображение f текстового поля не обладает свойством А. 10 ил., 1 табл.

Формула изобретения RU 2 806 012 C1

Способ нейросетевого контроля текстовых данных на изображениях документов, включающий подачу на вход входного изображения f текстового поля, причем для изображения f известно, что в оригинальном документе текстовая информация на нем обладает свойством А, также известна ширина Wf изображения f текстового поля, отличающийся тем, что входное поле изображения f в цветном пространстве RGB, содержащее текстовое поле документа, обрабатывают нейросетевым детектором контроля текстовых данных по следующему алгоритму:

- изображение поля f преобразуют в одноканальное, после чего поступает на вход обученной полносверточной нейронной сети;

- на выходе нейронная сеть ставит в соответствие для каждой вертикальной линии, соответствующей середине рецептивного поля, значения и wA - оценки уверенности для 2 возможных классов:

- класс при котором свойство в текстовом поле отсутствует; класс А, при котором свойство в текстовом поле присутствует;

- производят подсчет сумм и SA значений оценок уверенности для 2 возможных классов по всем вертикальным линиям изображения ƒ текстового поля:

- производят проверку на наличие в f аномалии, при этом если в рассматриваемом текстовом поле аномалия не найдена, то изображение ƒ рассматриваемого текстового поля обладает свойством А, если если в рассматриваемом текстовом поле аномалия найдена, то изображение f текстового поля считается обладающим свойством А при наличии аномалии, если выполнено условие в других случаях изображение f текстового поля не обладает свойством А.

Документы, цитированные в отчете о поиске Патент 2023 года RU2806012C1

ИДЕНТИФИКАЦИЯ ПОЛЕЙ НА ИЗОБРАЖЕНИИ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА 2018
  • Каленков Максим Петрович
RU2695489C1
ОБНАРУЖЕНИЕ ТЕКСТОВЫХ ПОЛЕЙ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ 2018
  • Зуев Константин Алексеевич
  • Сенкевич Олег Евгеньевич
  • Голубев Сергей Владимирович
RU2699687C1
Способ получения продуктов конденсации фенолов с формальдегидом 1924
  • Петров Г.С.
  • Тарасов К.И.
SU2022A1
CN 110895693 A, 20.03.2020
Станок для придания концам круглых радиаторных трубок шестигранного сечения 1924
  • Гаркин В.А.
SU2019A1
US 7920714 B2, 05.04.2011
Yulia S
Chernyshova и др., "Optical Font Recognition in Smartphone-Captured Images, and its Applicability for ID Forgery Detection", 18.10.2018, URL:

RU 2 806 012 C1

Авторы

Арлазаров Никита Викторович

Кунина Ирина Андреевна

Полевой Дмитрий Валерьевич

Чуйко Александр Васильевич

Даты

2023-10-25Публикация

2023-03-07Подача