Заявленное изобретение относится к области поиска машиночитаемой зоны документа на изображении.
Машиночитаемая зона (МЧЗ) документа содержит 2 или 3 длинные текстовые строки фиксированного формата, в которых закодирована основная информация о владельце документа. МЧЗ используется в паспортах, ID картах и визах для автоматического извлечения информации с помощью технологии оптического распознавания символов (OCR). Примеры таких зон приведены на фиг.1.
Поиск МЧЗ на изображении для ее распознавания является нетривиальной задачей. Входное изображение может быть получено не только со специализированного сканера, но и с камеры мобильного устройства в неконтролируемых условиях. Алгоритм локализации МЧЗ обязан быть устойчив к проективным искажениям, изменениям масштаба, низкой контрастности изображения и смазу. Также возможен изгиб страницы документа, приводящий к изогнутым строкам МЧЗ. Обязательным условием для систем распознавания является компактный размер используемых моделей. Сегодня банками и другими организациями активно применяется технология WebAssembly (Wasm), в которой код программы и используемые модели для распознавания документа (в том числе и МЧЗ) скачиваются на устройство при доступе к онлайн сервису, и затем выполняется на нем же. Большой размер модели приведет к долгой загрузке и инициализации программы, что негативно скажется на удобстве использования сервиса. Компактный размер моделей важен также и для их использования на мобильных устройствах, с целью безопасной работы с личными данными.
В итоге, требования к методу поиска МЧЗ следующие:
1) Компактный размер модели;
2) Быстрая скорость работы;
3) Высокая устойчивость к шумам, смазу и проективным искажениям МЧЗ на фотографиях, полученных в неконтролируемых условиях;
4) Устойчивость к криволинейным строкам МЧЗ вследствие изгиба страницы документа.
Из уровня техники известны различные способы поиска машиночитаемой зоны документа на изображении.
Например, в источниках информации [1, 2, 3] предлагаются подходы к локализации МЧЗ на основе алгоритмов обработки изображения. В работе [3] МЧЗ ищется на основе быстрого преобразования Хафа, запускаемого на найденные ключевые точки. На практике данные методы показывают высокую скорость работы, но слабо устойчивы к изображениям с камеры мобильного телефона, полученных в неконтролируемых условиях.
В то же время подходы на основе глубокого обучения хорошо зарекомендовали себя в задачах, где качество входного изображения является крайне вариативным. В работах [4, 5, 6] для поиска МЧЗ предлагаются подходы на основе искусственных нейронных сетей (ИНС). Самым быстрым нейросетевым подходом на текущий момент является YOLO-MRZ [6]. Однако размер этой модели составляет 1 МБ, что может составлять заметную долю от размера системы распознавания. В работе [4] представлена нейронная сеть для одновременной детекции и распознавания МЧЗ в кадре, но она подразумевает высокое разрешение входа, что делает ее вычислительно сложной для применения на мобильном устройстве: время обработки кадра даже на серверном процессоре Intel Xeon Gold 5220R составляет 14.82 секунды.
В работе [5] предлагается нейронная сеть для сегментации МЧЗ на основе прямого и транспонированного преобразования Хафа - Hough-Encoder. Также как и в работе [3], в данном методе закладывается предположение, что строки МЧЗ представляют собой прямые, и данные методы нельзя назвать устойчивыми к изогнутым строкам МЧЗ так это не закладывалось в саму модель алгоритмов.
Таким образом, недостатки существующих методов заключаются в следующем:
1) Недостаточно высокое качество работы на реальных изображениях, полученных с камеры мобильного устройства (работы 1, 2, 3);
2) Долгое время работы на CPU (работа 4);
3) Большой размер модели (работа 6);
4) Неустойчивость к криволинейным строкам МЧЗ на уровне модели (3, 5)
Задачей заявленного изобретения является устранение недостатков известного уровня техники. Технический результат заключается в обеспечении способа поиска машиночитаемой зоны документа на изображении с помощью ИНС, содержащей прямое и транспонированное преобразования Хафа, который позволяет обеспечить возможность искать как прямые, так и изогнутые МЧЗ на фотографиях, полученных с камер мобильных устройств, а также позволяет обеспечить устойчивость к качеству и способу получения входного изображения.
Поставленная задача решается, а заявленный технический результат достигается посредством заявленного способа поиска машиночитаемой зоны документа на изображении с помощью ИНС, содержащей прямое и транспонированное преобразования Хафа.
На фигурах представлены:
Фиг. 1: Примеры 3 различных форматов МЧЗ.
Фиг. 2: Архитектура детектора HED-MRZ (HED - Hough Encoder for Detection; MRZ -
Machine Readable Zone).
Фиг. 3: Хаф-блок в архитектуре HED-MRZ.
Фиг. 4: Результат работы предложенного способа поиска МЧЗ. Слева направо: исходное изображение с найденной МЧЗ; ответ сети; найденная рамка МЧЗ на ответе сети.
Заявленный способ поиска МЧЗ на изображении с помощью ИНС с прямым и транспонированным преобразованием Хафа заключается в следующем.
Для поиска МЧЗ в кадре применяется компактная нейронная сеть для выделения пикселей, принадлежащих МЧЗ. Так как в большинстве случаев МЧЗ состоит из прямых строк, для этого в нейронной сети используется модуль с быстрым преобразованием Хафа. Данный модуль оперирует глобальными линейными признаками на изображении. Для учета локальных признаков, на основе которых можно локализовать изогнутые строки МЧЗ, используется сверточный блок в нейронной сети. Сверточный блок и блок с Хафом применяются параллельно, а их результаты затем агрегируются. Таким образом, достигаются следующие цели:
1) За счет обучаемости алгоритма достигается высокая устойчивость к искажениям на входных изображениях, в том числе к шуму, смазу и проективным преобразованиям;
2) Использование прямого и транспонированного преобразования Хафа увеличивает рецептивное поле сети без увеличения числа параметров в сети, тем самым позволяя сократить число сверточных слоев сети и делая ее компактной;
3) Применение легковесной архитектуры нейронной сети положительно сказывается на объеме и времени работы подхода; Размер сети, используемой в подходе, всего 120 КБ против 1 МБ у YOLO-MRZ [6];
4) Комбинирование глобальных и локальных признаков позволяет не ограничивать модель только прямыми МЧЗ (как это было в работах [3, 5]), тем самым поддерживаются искривленные МЧЗ.
Архитектура нейронной сети представлена на фиг. 2.
В середине архитектуры сети изображены вышеописанные 2 параллельных блока: сверточный блок (Conv block) и Хаф-блок (Hough block), результаты вычисления которых суммируются. Разветвление и применение сверточного блока помимо блока Хафа необходимо, чтобы иметь возможность учитывать также и нелинейные признаки. Это нужно в случаях, когда МЧЗ искажена ввиду изгиба страницы документа и представляет собой кривую линию.
Подробное описание Хаф-блока приведено на фиг. 3. К входному тензору применяется быстрое преобразование Хафа (поканально), после чего следующие 3 сверточных слоя работают с признаками в Хаф-пространстве. Применение в промежуточных сверточных слоях фильтров с размерами ядер 3x3 позволяет учитывать признаки не вдоль одной прямой на изображении, а вдоль пучка близких по параметрам прямых. Транспонированное преобразование Хафа переводит Хаф-образ из системы координат (s,t) обратно в исходный образ в системе координат (х,у). Транспонированное преобразование Хафа выполняется из расчета, что преобразование Хафа является линейным оператором, а значит при проходе назад при обучении матрица оператора транспонируется. На практике это означает, что транспонированное преобразование Хафа можно выразить через прямое преобразование Хафа.
Хаф-блок также содержит еще 2 архитектурных особенности. Во первых, сверточный слой, выход которого идет в оператор быстрого преобразования Хафа, использует в качестве функции активации ограниченную функцию softsign: f(x)=(x/(|x|+1)). Ограниченная функция необходима для исключения выбросов на карте признаков, которые могут приводить к ложным пикам на Хаф-образе. В остальных сверточных слоях используется функция активации ReLU: f(x)=max(0,x). Вторая особенность заключается в использовании симметричных отступов в свертках. Умолчательное заполнение отступа нулями создает ложную границу на картах признаков, что затем трактуется быстрым преобразованием Хафа в качестве прямых. Применение симметричных отступов решает эту проблему.
Для получения результата поиска МЧЗ, ответ нейронной сети бинаризуется по глобальному порогу, затем выделяются компоненты связности, и среди них отсеиваются по площади те, которые явно не могут представлять собой МЧЗ. К оставшимся применяется алгоритм поиска минимального ограничивающего прямоугольника. Примеры работы приведены на фиг. 4.
Нейронная сеть из предложенного способа весит 120 КБ и содержит всего 35 тыс.обучаемых параметров, что делает ее легко встраиваемой в мобильные приложении. Время работы HED-MRZ на процессоре AMD Ryzen Threadripper PRO 5975WX составляет 0.38 секунды, что в совокупности с размером модели в 120 КБ позволяет применять ее на мобильных устройствах. Для сравнения, YOLO-MRZ [6] весит 1 МБ.
Предложенный способ поиска МЧЗ позволяет искать как прямые, так и изогнутые МЧЗ на фотографиях, полученных с камер мобильных устройств. Метод устойчив к качеству и способу получения входного изображения за счет использования метода глубокого обучения в виде нейронной сети.
Список источников, предлагающих решение аналогичной задачи
1) Haiti, A., Arm, С, & Schmalstieg, D. (2015). Real-time Detection and Recognition of Machine-Readable Zones with Mobile Devices. VISAPP 2015 - 10th International Conference on Computer Vision Theory and Applications; VISIGRAPP, Proceedings, 3, 79-87. DOI: 10.5220/0005294700790087.
2) S. Kolmakov, N. Skoryukina, and V. Arlazarov, "Machine-readable zones detection in images captured by mobile devices' cameras," Pattern Recognit. Image Anal. 30, 489-495 (2020). DOI: 10.1134/S105466182003013.
3) Savelyev, В. I.; Skoryukina, N. S.; Arlazarov, V. V. A method for machine- readable zones location based on a combination the Hough transform and feature points. Bulletin of the South Ural State University, Series: Mathematical Modelling, Programming and Computer Software 2022, 15, 100-110, DOI: 10.14529/mmp220208.
4) Liu, Yichuan & Joren, Hailey & Gupta, Otkrist & Raviv, Dan. (2021). MRZ code extraction from visa and passport documents using convolutional neural networks. International Journal on Document Analysis and Recognition (IJDAR). 25. DOI: 10.1007/s10032-021-00384-2.
5) Ilyuhin, S., Sheshkus, A., Arlazarov, V., Nikolaev, D.: Hough encoder for ma- chine readable zone localization. Pattern Recognit. Image Anal. (2022). DOI: 10.1134/S1054661822040150.
6) Gayer A., Ershova D., Arlazarov V. V. 2023. An accurate approach to real-time machine-readable zone detection with mobile devices. Int. J. Doc. Anal. Recognit. 26, 3 (Sep 2023), 321-334. DOI: 10.1007/s10032-023-00435-w.
Изобретение относится к области информационных технологий, а именно к поиску машиночитаемой зоны (МЧЗ) документа на изображении. Технический результат направлен на повышение точности определения как прямых, так и изогнутых МЧЗ на фотографиях. Способ поиска машиночитаемой зоны документа на изображении с помощью искусственной нейронной сети (ИНС), содержащей прямое и транспонированное преобразования Хафа, заключается в том, что для поиска МЧЗ в кадре применяется компактная нейронная сеть для выделения пикселей, принадлежащих МЧЗ, при этом в нейронной сети используются 2 параллельных блока: сверточный блок и Хаф-блок, при этом к входному тензору применяется преобразование Хафа поканально, после чего следующие 3 сверточных слоя работают с признаками в Хаф-пространстве, при этом сверточный слой, выход которого идет в оператор преобразования Хафа, использует в качестве функции активации ограниченную функцию softsign: f(x)=(x/(|x|+1)), в остальных сверточных слоях используется функция активации ReLU: f(x)=max(0,x), при этом применяется использование симметричных отступов в свертках, для получения результата поиска МЧЗ, к оставшимся применяется алгоритм поиска минимального ограничивающего прямоугольника. 4 ил.
Способ поиска машиночитаемой зоны документа на изображении с помощью ИНС, содержащей прямое и транспонированное преобразования Хафа, заключающийся в том, что для поиска МЧЗ в кадре применяется компактная нейронная сеть для выделения пикселей, принадлежащих МЧЗ, отличающийся тем, что в нейронной сети используются 2 параллельных блока: сверточный блок и Хаф-блок, результаты вычисления которых суммируются, при этом к входному тензору применяется преобразование Хафа поканально, после чего следующие 3 сверточных слоя работают с признаками в Хаф-пространстве, при этом сверточный слой, выход которого идет в оператор преобразования Хафа, использует в качестве функции активации ограниченную функцию softsign: f(x)=(x/(|x|+1)), в остальных сверточных слоях используется функция активации ReLU: f(x)=max(0,x), при этом применяется использование симметричных отступов в свертках, для получения результата поиска МЧЗ, ответ нейронной сети бинаризуется по глобальному порогу, затем выделяются компоненты связности и среди них отсеиваются по площади те, которые не могут представлять собой МЧЗ, к оставшимся применяется алгоритм поиска минимального ограничивающего прямоугольника.
US 20170220886 A1, 03.08.2017 | |||
US 10970579 B2, 06.04.2021 | |||
Способ получения ректифицированных изображений документов, сложенных пополам | 2023 |
|
RU2820743C1 |
СПОСОБ И СИСТЕМА ИСПРАВЛЕНИЯ ПЕРСПЕКТИВНЫХ ИСКАЖЕНИЙ В ИЗОБРАЖЕНИЯХ, ЗАНИМАЮЩИХ ДВУХСТРАНИЧНЫЙ РАЗВОРОТ | 2016 |
|
RU2631765C1 |
РАСПРОСТРАНЯЮЩИЕСЯ ОБНОВЛЕНИЯ ПЛОСКОСТИ РАЗРЫВА | 2013 |
|
RU2594372C1 |
Авторы
Даты
2025-01-16—Публикация
2024-06-18—Подача