Показать метаданные Скрыть метаданные

(19)

(11)

2 820 743

(13)

(51)

МПК

G06T5/80(2024-01-01)

(21) (22)

Заявка

2023130764, 2023-11-24

(24)

Дата начала отсчета патента

2023-11-24

(22)

дата подачи заявки

2023-11-24

(45)

опубликовано

2024-06-07

(72)

авторы

Арлазаров Владимир ВикторовичЕршов Александр МихайловичНиколаев Дмитрий ПетровичТропин Даниил Вячеславович

(73)

патентообладатели

Общество С Ограниченной Ответственностью Энджинс Сервис"

(56)

Документы, цитированные в отчете о поиске

US 20170076169 A1, 16.03.2017US 10991081 B1, 27.04.2021CN 111353961 A, 30.06.2020US 7463772 B1, 09.12.2008.

Способ получения ректифицированных изображений документов, сложенных пополам Российский патент 2024 года по МПК G06T5/80

Описание патента на изобретение RU2820743C1

Заявленное изобретение относится к средствам для работы с документами. В повседневной жизни часто возникает необходимость оцифровки документов. Ранее эта задача решалась при помощи сканеров и систем распознавания. С распространением мобильных телефонов изображения, полученные с камеры, стали более популярны, чем отсканированные изображения. Системы распознавания, запускаемые на таких изображениях, могут испытывать трудности. Например, образ документ (а значит, и текст на документе) может быть проективно искажен, так что нельзя рассчитывать на высокое качество распознавания систем, рассчитанных на сканеры. Поэтому перед распознаванием необходим дополнительный этап - получение ректифицированного изображения - изображение документа, как если бы он отсканирован на планшетном сканере. При получении ректифицированного изображения необходимо, чтобы содержимое документа не было никаким образом искажено (не было разрывов изображения, была сохранена горизонтальность строк и т.д.). Зачастую бывает так, что деловые документы хранятся в сложенном виде. Поэтому, когда возникает необходимость их оцифровать, нужно решить задачу ректификации документа, сложенного пополам.

Из уровня техники известны различные способы для получения ректифицированных изображений физически искаженных документов (см. документы Michael S Brown and W Brent Seales. Image restoration of arbitrarily warped documents. IEEE Transactions on pattern analysis and machine intelligence, 26(10):1295-1306, 2004 (1); Shaodi You, Yasuyuki Matsushita, Sudipta Sinha, Yusuke Bou, and Katsushi Ikeuchi. Multiview rectification of folded documents. IEEE transactions on pattern analysis and machine intelligence, 40(2):505-511, 2017 (2); Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, and Houqiang Li. Doctr: Document image transformer for geometric unwarping and illumination correction. arXiv preprint arXiv: 2110.12942, 2021 (3); Gaofeng Meng, Chunhong Pan, Shiming Xiang, Jiangyong Duan, and Nanning Zheng. Metric rectification of curved document images. IEEE transactions on pattern analysis and machine intelligence, 34(4):707-722, 2011 (4)), однако они не предназначены для решения задачи развертки сложенных пополам документов по одному изображению, полученному с камеры мобильного телефона: в (1) предлагается использовать внешнее дополнительного оборудование, в работе (2) необходимо наличие нескольких изображений на входе, нейросетевой подход (3) не учитывает проективных искажений, возникающих при съемке камерой, в работе (4) накладывается существенное ограничение на модель документа - он должен быть представлен гладкой цилиндрической поверхностью с направляющими, параллельными текстовым строкам. Из источника информации (5) (см. Sagnik Das, Gaurav Mishra, Akshay Sudharshana, and Roy Shilkrot. The common fold: utilizing the four-fold to dewarp printed documents from a single image. In Proceedings of the 2017 ACM Symposium on Document Engineering, pages 125-128, 2017) известен способ для развертки документов, сложенных в несколько раз - это статья. Однако в (5), во-первых, не учитываются проективные искажения, возникающие при съемке камерой, а во-вторых, при детекции каждой части документа по отдельности и последующей склейке возникает разрыв контента на местах склейки.

Предложенный способ позволяет решать задачу развертки сложенных документов по одному изображению, полученному с камеры мобильного телефона и обладает следующими преимуществами:

- не требует дополнительного оборудования в отличие от (1).

- принимает на вход одно изображение в отличие от (2).

- учитывает проективные искажения в отличие от (3), (5).

- гарантирует отсутствие разрыва на сгибе в отличие от (5).

Помимо этого, важными деталями является то, что предложенный способ подходит для запуска на мобильном телефоне, а также устойчив к частичной окклюзии края документа - например, если его часть скрыта рукой.

Задачей заявленного изобретения является устранение недостатков известного уровня техники. Технический результат заключается в обеспечении способа получения ректифицированных изображений документов, сложенных пополам, который позволяет обеспечить повышение качества развертки сложенных документов по одному изображению, полученному с камеры мобильного телефона и при этом представленный способ не требует дополнительного оборудования, принимает на вход одно изображение, учитывает проективные искажения, обеспечивает отсутствие разрыва на сгибе, подходит для запуска на мобильном телефоне, а также устойчив к частичной окклюзии края документа - например, если его часть скрыта рукой.

Поставленная задача решается, а заявленный технический результат достигается посредством заявленного способа получения ректифицированных изображений документов, сложенных пополам.

Заявленный способ получения ректифицированных изображений документов, сложенных пополам заключается в поступлении на вход модели предъявления документа, причем верхняя половина изображения содержит большую часть верхней половины документа, а нижняя половина изображения содержит большую часть нижней половины документа, при этом высота больше ширины, при этом исходное изображение I делится пополам на верхнюю часть I^t и нижнюю часть I^b, строится грубое приближение половин документа двумя четырехугольниками, для этого к обеим половинам применяется алгоритм локализации четырехугольников, основанный на детекции границ и прямых, выходом которого является набор четырехугольников, отсортированных по их контурной оценке, таким образом получается множество четырехугольников Q^t, расположенных на I^t и множество четырехугольников Q^b, расположенных на I^b, при этом каждая пара четырехугольников используется для того, чтобы составить шестиугольник, который бы представлял внешние границы сложенного документа на изображении, к каждому сформированному и уточненному шестиугольнику применяется алгоритм коррекции, после этого шестиугольники сортируются по их контурной оценке и тот, у которого самая высокая контурная оценка является выходом из этапа локализации, последним этапом является отображение входного изображения, определяемого двумя проективными преобразованиями.

На фигурах представлены:

Фиг. 1: Блок-схема алгоритма, использованного в предлагаемом методе

Фиг. 2: Блок-схема алгоритма детекции набора четырехугольников

Фиг. 3: (а) Горизонтальные (зеленые) и вертикальные (красные) границы на “общей” карте границ, (б) детектированные прямые (красные и зеленые) и синяя линия, разделяющая изображение пополам, (в) пара четырехугольников (верхний изображен голубым, нижний изображен желтым), истинная линия сгиба (зеленая) и линия сгиба, получена пересечением вертикальных отрезков (красная), (г) ломаная ABCD, аппроксимирующая излом границы на треке, выделенном штрихованным прямоугольником на (а), (д) локализованный шестиугольник, (е) границы, лежащие вдоль детектированного шестиугольника, (ж) ректифицированное изображение

Фиг. 4: Блок-схема алгоритма формирования шестиугольников

Фиг. 5: Примеры непрерывного (Н1, Н2) и разрывного (Н3, Н2) преобразования

Фиг. 6: Примеры неудовлетворительной и удовлетворительной ректификации: (а) входное изображение с детектированным шестиугольником (синий) и его корректировкой (красная), которая признана невалидной, (б) ректификация по красному шестиугольнику, (в) входное изображение с детектированным шестиугольником (синий) и его корректировкой (зеленая), которая признана валидной, (г) ректификация по зеленому шестиугольнику

Фиг. 7: Пример работы алгоритма: (а) Исходное изображение, (б) детектированные границы, (в) детектированные прямые, (г) найденные четырехугольники, (д) построенный и скорректированный шестиугольник, (е) ректифицированное изображение

Фиг. 8: Пример работы алгоритма: (а) Исходное изображение, (б) детектированные границы, (в) детектированные прямые, (г) найденные четырехугольники, (д) построенный и скорректированный шестиугольник, (е) ректифицированное изображение

Для использования предложенного метода необходимо:

- камера для получения входного изображения, например, камера смартфона;

- вычислительное устройство с любым современным процессором архитектуры ARM или x86, например, настольный компьютер или смартфон.

Пусть дано изображение, на котором находится документ формата А4, которое было получено при съемке камерой. Этот лист сложен пополам таким образом, что линия сгиба параллельна короткой стороне этого документа (далее - сложенный документ). Необходимо восстановить изображение этого документа, как если бы он был отсканирован на планшетном сканере. Далее это изображение будем называть ректифицированным, а саму задачу называть задачей ректификации.

В качестве метода решения задачи ректификации сложенного документа предлагается детектировать шестиугольник его внешней границы и проективно преобразовать каждую его половину по отдельности. Для реализации этого способа предлагается использовать следующий алгоритм.

Рассмотрим схему на фиг. 1. Предполагается, что модель предъявления документа такова, что верхняя половина изображения содержит большую часть верхней половины документа, а нижняя половина изображения содержит большую часть нижней половины документа, при этом высота больше ширины. Поэтому сначала исходное изображение I делится пополам на верхнюю часть I^t и нижнюю часть I^b, и строится грубое приближение половин документа двумя четырехугольниками. Для этого к обеим половинам применяется алгоритм локализации четырехугольников (раздел 1), основанный на детекции границ и прямых, выходом которого является набор четырехугольников, отсортированных по их контурной оценке. Таким образом получается множество четырехугольников Q^t расположенных на I^t и множество четырехугольников Q^b, расположенных на I^b.

Каждая пара четырехугольников используется для того, чтобы составить шестиугольник, который бы представлял внешние границы сложенного документа на изображении. Для того, чтобы составить такой шестиугольник, используются специальные уточняющие техники (раздел 2). К каждому сформированному и уточненному шестиугольнику применяется алгоритм коррекции (раздел 3) для того, чтобы он соответствовал критерию неразрывности. После этого шестиугольники сортируются по их контурной оценке и тот, у которого самая высокая контурная оценка является выходом из этапа локализации (раздел 4).

Последним этапом алгоритма является отображение входного изображения, определяемое двумя проективными преобразованиями. Полученное таким образом изображение является выходом предложенного алгоритма. Рассмотрим детально все блоки схемы на фиг. 1, выделенные пунктиром.

1. Поиск четырехугольников

На Фиг. 2 представлена блок-схема алгоритма детекции набора четырехугольников.

Рассмотрим ее этапы.

1.1. Выделение границ

Здесь и далее будем говорить, что вектор и имеет горизонтальное направление, если угол между ним и направляющим вектором горизонтального направления на изображении лежит во множестве, иначе - что он имеет преимущественно вертикальное направление. Поиск границ на изображении начинается с выполнения морфологических операций. Изображение увеличивается на δ_m(=5) в каждую сторону повторением граничных пикселей (Здесь и далее все параметры предложенного алгоритма, настраиваемые вручную, обозначаются греческими буквами, их значения представлены в скобках. Единицы измерения метрического расстояния совпадают с расстоянием, порождаемым сеткой размером 1 пиксель.). Затем проводится операция морфологического замыкания с размером окна ω (=3) пикселей. После этого производится размытие фильтром Гаусса с вертикальной дисперсией σ_e (=0.83) и нулевой горизонтальной дисперсией. На размытом изображении считается производная вдоль вертикального направления вычислением модулей разности соседних пикселей. Вышеописанная операция выполняется поканально, после чего результаты работы усредняются и получается серое изображение границ. На нем выполняется подавление немаксимумов - те пиксели, рядом с которыми есть более яркие или значение которых меньше θ (=2), зануляются, а остальные заполняются фиксированным значением. После этого ненулевые пиксели объединяются в компоненты 8-связности, содержащие не более одного пикселя в каждом столбце изображения. Такие компоненты связности далее будут называться треками. Треки фильтруются по количеству пикселей: если его длина меньше, чем ρ_e (=10%) от длины самого длинного трека, то все пиксели в нем также зануляются. Полученную карту горизонтальных границ обозначим E_h. Аналогично происходит детекция вертикальных границ и вводится соответствующая карта границ E_v. Карты границ E_v и E_h наложены на входное изображение на фиг. 3. а.

1.2. Детекция прямых

После вычисления карт границ E_h и E_v происходит поиск прямых горизонтального и вертикального направления соответственно. Для вертикального направления карта границ разделяется на две (горизонтально пополам): . Изображения размываются при помощи фильтра Гаусса с дисперсией σ_h (=1) и получаются размытые карты границ . К изображениям применяется быстрое преобразование Хафа (6). Для вертикальных границ находится глобальный максимум М на хаф-образе по обоим изображениям, после чего на каждом из них находится по ν_max (=15) локальных максимумов, значения в которых составляют не менее ρ₁ (=20%) от М, и в круге радиуса δ¹ (=10) от которого нету более ярких локальных максимумов. Для горизонтальных границ аналогично находятся ν_max локальных максимумов на изображении . Найденные локальные максимумы переводятся в прямые покоординатно с помощью обратного БПХ. Три множества прямых - два набора вертикальных и один наборгоризонтальных прямых L_h - являются результатом работы данного этапа. На фиг. 3.б представлен результат работы данного этапа.

1.3. Сбор и фильтрация четырехугольников

Обозначим линию, разделяющую изображение I пополам I_s. В каждой половине формируется множество четырехугольников . Каждый четырехугольник q^t формируется пересечением четырех прямых: одной горизонтальной прямой I_h ∈ L_h, прямой I_s и двух вертикальных прямых . Для формирования множества Q^t формируются все такие возможные четырехугольники, полностью лежащие в I^t. Каждому четырехугольнику ставится в соответствие его контурная оценка s(q^t), предложенная в (7) (ее аналог будет рассмотрен в разделе 4), после чего все четырехугольники сортируются в порядке убывания этой оценки.

Аналогично формируется множество Q^b четырехугольников, полностью лежащих в I^b.

2. Построение шестиугольников

На Фиг. 4 представлена блок-схема алгоритма формирования шестиугольников по двум четырехугольников. Рассмотрим ее этапы.

Здесь и далее под точками сгиба мы понимаем точки, в которых линия сгиба пересекает внешнюю границу документа (точка F на Фиг. 3. а)

Рассмотрим пару четырехугольников q^t∈Q^t, q^b∈ Q^b. Чтобы сформировать шестиугольник, используются все отрезки этих четырехугольников, кроме тех, которые лежат на прямой I_s. Можно было бы подумать, что для получения шестиугольника достаточно пересечь соответствующие вертикальные сегменты q^t и q^b. Однако поскольку в общем случае половины документа не плоские и их контуры не являются прямыми линиями, эти пересечения могут не соответствовать точкам сгиба (Фиг. 3. в). В связи с этим мы анализируем контуры, а не прямые. Рассмотрим карту границ E_v. Каждому вертикальному отрезку четырехугольников q^t, q^b ставится в соответствие трек с карты границ и рассматривается далее.

А именно, для каждого трека e_v вычисляется число его пикселей на удалении не более, чем (=3) от данного отрезка s. После этого выбирается трек с наибольшим таким числом и считается соответствующим отрезку s:

Если это число для больше, чем ρ_min (=50%) длины s, то такой трек считается валидным.

После того, как вертикальным отрезкам сопоставлены валидные треки (если были найдены), проверяется, есть ли пара вертикальных отрезков s^t ∈ q^t, s^b ∈ q^b, таких что . Будем обозначать такой и будем говорить, что он соответствует двум вертикальным отрезкам. Если такая пара отрезков есть и с левой, и с правой стороны изображения, создается до четырех шестиугольников - вариантов положения документа - по рассматриваемой паре четырехугольников (q^t, q^b). Для их формирования мы используем два примитива: угол, аппроксимирующий излом границы, вызванный складыванием бумаги (раздел 2.1) и линию сгиба (раздел 2.2). Варианты определяются этими примитивами следующим образом: h₁ определяется двумя углами, h₂ - левым углом и линией сгиба, h₃ - правым углом и линией сгиба, h₄ - одной линией сгиба.

2.1. Поиск точек сгиба

Рассмотрим общий для двух вертикальных отрезков s^t, s^b (например, красный трек внутри области, отмеченной пунктиром на Фиг. 3. а). Нашей целью является поиск точки сгиба (F на том же фиг.) как точки с наибольшим изломом границы.

Чтобы найти точку сгиба, построим трехзвенную ломаную ABCD с центральным отрезком ВС и внешними отрезками АВ и CD на треке. Занумеруем точки от 0 до N сверху вниз и обозначим индекс произвольной точки p трека как i(p). Начиная с произвольной точки , построим оптимальную ломаную следующим образом. Рассмотрим произвольную точку как точку В для ломаной ABCD. Сначала считая, что , построим кратчайший отрезок , такой, что линейная регрессия, построенная по точкам между ними, будет иметь квадратичную ошибку, превышающую ε_c(=0.2) и после этого возьмем точку C^*, как точку, предшествующую

Здесь dist_A обозначает алгербаическое рассстояние между точкой и прямой.

После этого, считая, что i(В) > i(А), формируется отрезок А^*В максимальной длины таким образом, что аналогичная регрессия будет иметь квадратичную ошибку не более ε_o(=1). Аналогично, считая, что i(С^*) < i(D), строится отрезок С^*D^* (Фиг. 3. г). Угол, соответствующий данной ломаной, строится по отрезкам А^*В и С^*D^*, как наибольший угол между прямыми, содержащими эти отрезки. Вершиной угла является точка пересечения отрезков А^*В и С^*D^*. Если эти прямые не пересекаются, вершиной угла считается середина отрезка ВС^*.

После того, как для каждой точки построена такая ломаная, на треке находится

точка с наименьшим углом, построенным для нее. Если этот угол превосходит (=170 градусов), то считается, что искомый излом на треке не был найден. В противном случае вершина угла является выходом алгоритма поиска точек сгиба на треке.

2.2. Детекция прямой сгиба

Альтернатива h₂ использует левую точку сгиба и линию сгиба, альтернатива h₃использует правую точку сгиба и линию сгиба, альтернатива h₄ использует только линию сгиба. Сначала для каждого варианта опишем алгоритм определения линии сгиба, а затем - алгоритм определения координат недостающих вершин.

Линия сгиба для h₂ и h₃ выбирается из множества L_h, в котором содержатся все горизонтальные прямые. Искомая линия сгиба выбирается как ярчайшая (в терминах БПХ-образа) прямая среди тех прямых, которые находятся на расстоянии не более (=15) от точки сгиба. Если прямых в окрестности рассматриваемой точки нет, то варианты h₂, h₃ далее не рассматриваются.

Для h₄ прямая сгиба находится следующим образом. Сначала вычисляются точки пересечения прямых, содержащих горизонтальные отрезки q^t и q^b, с левой и правой границей изображения. Затем для каждой прямой из набора горизонтальных прямых находятся пересечения с теми же границами изображения. После чего выбираются те прямые, для которых пересечение с левой границей лежит между на удалении хотя бы (=10) от каждого, а с правой - между с аналогичными минимальными расстояниями от них.

Из выбранных прямых выбирается та, которой соответствует самое большое значение на БПХ-образе, она и будет являться искомой линией сгиба. После этого мы рассматриваем треки (их может быть больше одного), соответствующие линии сгиба, у которых длина составляет хотя бы (=40%) ширины изображения. Установление того, какой трек соответствует линии сгиба, производится тем же способом, что и в разделе 2. После этого для каждого такого трека проводится проверка на то, что не менее (=90%) его длины лежит внутри . Если для какого-то из найденных треков это не так, то он больше не участвует в рассмотрении.

После этого мы увеличиваем оставшиеся треки, добавляя β(=3) пикселя слева в той же строке изображения, что и его самая левая точка и β пикселей справа в той же строке изображения, что и его самая правая точка. После этого они пересекаются с Если трек, общий для пары вертикальных отрезков есть и слева, и справа, то ищется пересечение с левым треком. Точка пересечения (если она нашлась) теперь рассматривается как вершина шестиугольника.

Для вариантов h₂, h₃, h₄ известны пять вершин (все, кроме одной вершины на линии сгиба) и линия сгиба. Без ограничения общности предположим, что известна левая вершина. Чтобы достроить правую вершину линия сгиба пересекается с правыми вертикальными отрезками q^t and q^b. После этого берется середина отрезка между этими пересечениями, и она считается правой внутренней вершиной.

3. Коррекция шестиугольника для соответствия критерию неразрывности

Когда используется отображение, определяемое двумя проективными преобразованиями для того, чтобы ректифицировать шестиугольник, отвечающий внешнему контуру документа - верхняя половина проективно преобразовывается на верхнюю половину ректифицированного изображения, нижняя половина проективно преобразовывается на нижнюю половину ректифицированного изображения -существует возможность того, что текст будет разрезан в месте соединения половин (красная часть Фиг. 5).

Оказывается, для отсутствия разрыва имеет место следующий критерий. Пусть на плоскости даны два четырехугольника: A₁B₁CD и A₂B₂CD, смежные по стороне CD и лежащие в разных полуплоскостях относительно нее, и прямоугольники А₁'В₁'С'D' и А₂'B₂'С'D' со смежной стороной С'D' в разных полуплоскостях относительно нее. Пусть Н₁ - проективное преобразование из A₁B₁CD в А₁'В₁'С'D', а Н₂ - проективное преобразование из A₂B₂CD в А₂'В₂'С'D'. Пусть Н - преобразование, равное H₁ на полуплоскости, в которой лежит A₁B₁CD и равное Н₂ на полуплоскости, в которой лежит A₂B₂CD. Тогда H корректно определено тогда и только тогда, когда прямые А₁В₁, А₂В₂ и CD пересекаются в одной точке (синяя часть Фиг. 3).

Преобразуем в соответствии с критерием каждый из вариантов расположения документа. Для трех горизонтальных отрезков шестиугольника применяется алгоритм (8), вычисляющий три прямые, проходящие через одну точку и приближающие эти отрезки. После того, как были получены эти прямые, вершины шестиугольника пересчитываются: результирующие верхние и нижние прямые пересекаются с соответствующими вертикальными прямыми. Результирующая линия сгиба пересекается с верхними вертикальными отрезками. Обозначим оператор преобразования шестиугольника к модели единой горизонтальной точки схода V. Таким образом из шестиугольника h получается новый, h'=V(h).

4. Фильтрация и ранжирование шестиугольников

Для каждого шестиугольника из множества {h} вычисляется его контурная оценка, являющаяся количественной мерой яркости шестиугольника. Для этого карты границ размываются фильтром Гаусса с дисперсией σ(=1.83). При вычислении контурной оценки рассматриваются семь отрезков: стороны шестиугольников и отрезок на линии сгиба. Для каждого из них вычисляются следующие значения: сумма пикселей p_m вдоль отрезка и количество нулевых пикселей r_m вдоль отрезка. Количество нулевых пикселей вдоль каждого отрезка суммируется и делится на длину всех отрезков l, в результате чего получается отношение Также мы вычисляем значение штрафа q, предложенном в (7). Рассмотрим вершину шестиугольника v_n, расположенную не на сгибе. К q добавляется сумма β_p(=10) ближайших к v_n пикселей, лежащих вне h вдоль сторон, пересекающихся в v_n. В случае вершины, лежащей на линии сгиба v_c вычисялется сумма β_p(=10) ближайших к v_c пикселей, лежащих вне h вдоль линии сгиба (Фиг. 3. е). Тогда контурной оценкой шестиугольника называется число

Из множества шестиугольников {h'} выбирается такой h'*, что

где (h') - шестиугольник h, из которого h' был получен под действием оператора V, R_t(h') и R_b(h') ^_ соотношения сторон (9) верхней и нижней половины шестиугольника h^*, вычисленные в модели камеры-обскуры с фокусным расстоянием λ(=0.705) и принципиальной точкой в центре исходного изображения, R₀ - истинное соотношение сторон, равное для бумаги формата А4.

После этого вычисляются расстояния между соответствующими вершинами h'^* и h^*= (h'^*), а также углы между старыми и новыми отрезками. Если какой-то из этих углов превосходит (=2.56 градусов), или какое-то из этих расстояний больше, чем (=1%) высоты изображения, то в таком случае мы считаем, что коррекция шестиугольника при приведении его к модели единой точки схода может повредить горизонтальность текста, такой шестиугольник считается невалидным и вывод алгоритма локализации пустой.

Необходимость такой проверки продиктована следующим. Рассмотрим Фиг. 6. На ней изображены результаты работы алгоритма на двух различных изображениях. В обоих случаях найденные шестиугольники (изображены синим на Фиг. 6. а, в) отвечают истинным расположениям документа. Однако, документа на первом изображении не соответствует модели двух плоскостей, так что шестиугольник h^* сильно изменяется под действием оператора V и ректификация по скорректированному шестиугольнику h'^* (изображен красным на Фиг. 6. а) неудовлетворительная (Фиг. 6. б). Документ на втором изображении соответствует модели двух плоскостей, так что шестиугольник h^* (изображен зеленым на Фиг. 6. в) считается валидным и ректификация удовлетворительная (Фиг. 6. г).

5. Проективное преобразование

Если выбранный шестиугольник h'^* признан невалидным, то возвращается исходное изображение. В противном случае каждая половина шестиугольника проективно преобразуется (с использованием билинейной интерполяции (10)) на соответствующую половину ректифицированного изображения (2100 × 2970). Это изображение является выходом алгоритма.

Примеры реализации способа представлены на фиг. 7 и 8.

Описанный алгоритм может быть расширен и адаптирован для локализации и проективной нормализации сложенных один раз документов с прямой сгиба, непараллельной коротким сторонам документа, пересекающей обе длинные стороны документа.

В таком случае документ на изображении может быть представлен шестиугольником и для его детекции предлагается использовать алгоритм из этапов 1 и 2.

Пусть детектирован шестиугольник h. Для того, чтобы проективно нормализовать его верхний и нижний четырехугольники, необходимо определить, в каких отношениях линия сгиба делит боковые стороны листа бумаги на ректифицированном изображении. Эти отношения могут быть вычислены при помощи алгоритма (11) восстановления образа прямоугольника на изображении, применяя его к одной из частей детектированного шестиугольника как образу прямоугольника с соотношением сторон R₀(см. п. 4).

Критерий отсутствия разрыва при конкатенации образов верхнего и нижнего четырехугольников может быть переформулирован следующим образом.

Пусть на плоскости даны два четырехугольника: A₁B₁CD и A₂B₂CD, смежные по стороне CD и лежащие в разных полуплоскостях относительно нее, точка V₁=А₁В₁ CD, точка V₂=А₂В₂ CD и прямоугольник А₁'В₁'В₂'А₂', разделенный прямой С'D' таким образом, что точка С' лежит на стороне А₁'А₂' и делит ее в отношении x₁, а точка D' лежит на стороне В₁'В₂ и делит ее в отношении x_r. Пусть Н₁ - проективное преобразование из A₁B₁CD в А₁'В₁'С'D', а Н₂ - проективное преобразование из A₂B₂CD в А₂'В₂'С'D'. Пусть Н - преобразование, равное Н₁ на полуплоскости, в которой лежит A₁B₁CD и равное Н₂ на полуплоскости, в которой лежит A₂B₂CD. Тогда Н корректно определено тогда и только тогда, когда выполняется соотношение

Данное соотношение, подобно условию существования единой точки схода в п. 3, накладывает ограничение на взаимное расположение отрезков и . Зафиксировав положение отрезка CD, можно найти такие и , суммарное квадратное отклонение которых от соответствующих отрезков минимально и при этом соблюдается ограничение L (существование обеспечивается тем фактом, что семейство искомых параметров двухпараметрическое, а количество накладываемых условий равно трем).

После приведения отрезков А₁В₁, А₂В₂ к соответствию критерию отсутствия разрыва при конкатенации проективно нормализованных четырехугольников предлагается применить этап 4 без учета проверки соотношения сторон в выборе лучшего шестиугольника, после чего проективно исправить лучший шестиугольник, отобразив его четырехугольники на соответствующие четырехугольники ректифицированного изображения.

Таким образом, заявленный способ позволяет достичь следующих технических результатов:

- получение изображения документов, как если бы они были отсканированы на планшетном сканере, без применения последних, с использованием лишь камеры и вычислительного устройства;

- обеспечение возможности запуска на ректифицированных изображениях сложенных пополам документов систем распознавания, предназначенных для изображений, полученных с планшетного сканера. Такие системы являются менее ресурсоемкими и легковесными, чем системы распознавания, предназначенные для фотографий;

- обеспечение возможности получения ректифицированных изображений на одном устройстве, оснащенном камерой, например, на смартфоне, что позволяет не терять время на передачу данных между устройствами. При этом не требует мощного вычислителя (видеокарты) для быстрой работы на конечных пользовательских устройствах;

- обеспечение возможности хранить и использовать физические документы, предназначенные для оцифровки системами распознавания, в сложенном пополам виде;

- обеспечение возможности отсекать случаи, когда документ на изображении не удовлетворяет модели предъявления (две плоские половины страницы формата А4);

- обеспечение возможности находить и ректифицировать документы, частично скрытые рукой. Возможность держать документ в руках при съемке значительно повышает пользовательский опыт;

- алгоритм не требует информации о заполнении документа для его геометрической нормализации.

Список литературы

(1) Michael S Brown and Brent Seales. Image restoration of arbitrarily warped documents. IEEE Transactions on pattern analysis and machine intelligence, 26(10):1295-1306, 2004.

(2) Shaodi You, Yasuyuki Matsushita, Sudipta Sinha, Yusuke Bou, and Katsushi Ikeuchi. Multiview rectification of folded documents. IEEE transactions on pattern analysis and machine intelligence, 40(2):505-511, 2017.

(3) Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, and Houqiang Li. Doctr: Document image transformer for geometric unwarping and illumination correction. arXiv preprint arXiv:2110.12942, 2021.

(4) Gaofeng Meng, Chunhong Pan, Shiming Xiang, Jiangyong Duan, and Nanning Zheng. Metric rectification of curved document images. IEEE transactions on pattern analysis and machine intelligence, 34(4):707-722, 2011.

(5) Sagnik Das, Gaurav Mishra, Akshay Sudharshana, and Roy Shilkrot. The common fold: utilizing the four-fold to dewarp printed documents from a single image. In Proceedings of the 2017 ACM Symposium on Document Engineering, pages 125-128, 2017

(6) Martin L Brady. A fast discrete approximation algorithm for the radon transform. SIAM Journal on Computing, 27(1):107-119, 1998.

(7) Natalya Skoryukina, Dmitry P Nikolaev, Alexander Sheshkus, and Dmitry Polevoy. Real time rectangular document detection on mobile devices. In Seventh International Conference on Machine Vision (ICMV 2014), volume 9445, pages 458-463. SPIE, 2015.

(8) Julia Shemiakina, Ivan Konovalenko, Daniil Tropin, and Igor Faradjev. Fast projective image rectification for planar objects with manhattan structure. In Twelfth International Conference on Machine Vision (ICMV 2019), volume 11433, pages 450-458. SPIE, 2020.

(9) Zhengyou Zhang and Li-Wei He. Whiteboard scanning and image enhancement. Digital signal processing, 17(2):414-132, 2007.

(10) Anton Trusov and Elena Limonova. The analysis of projective transformation algorithms for image recognition on mobile devices. In Twelfth International Conference on Machine Vision (ICMV 2019), volume 11433, pages 250-257. SPIE, 2020.

(11) Daniil V. Tropin, Ivan A. Konovalenko, Natalya S. Skoryukina, Dmitry P. Nikolaev and Vladimir V. Arlazarov. Improved algorithm of ID card detection by a priori knowledge of the document aspect ratio. In Thirteenth International Conference on Machine Vision (ICMV 2020), volume 11605, pages 407-415. SPIE, 2021.

Иллюстрации к изобретению RU 2 820 743 C1

Реферат патента 2024 года Способ получения ректифицированных изображений документов, сложенных пополам

Изобретение относится к области обработки оцифрованных документов. Технический результат заключается в повышении качества развертки сложенных документов с устойчивостью к окклюзии края документа. Технический результат достигается тем, что верхняя половина изображения содержит большую часть верхней половины документа, а нижняя половина изображения содержит большую часть нижней половины документа, при этом высота больше ширины, при этом исходное изображение I делится пополам на верхнюю часть I^t и нижнюю часть I^b, строится грубое приближение половин документа двумя четырехугольниками, для этого к обеим половинам применяется алгоритм локализации четырехугольников, основанный на детекции границ и прямых, выходом которого является набор четырехугольников, отсортированных по их контурной оценке, таким образом получается множество четырехугольников Q^t, расположенных на I^t, и множество четырехугольников Q^b, расположенных на I^b, при этом каждая пара четырехугольников используется для того, чтобы составить шестиугольник, который бы представлял внешние границы сложенного документа на изображении, к каждому сформированному и уточненному шестиугольнику применяется алгоритм коррекции, после этого шестиугольники сортируются по их контурной оценке. 27 ил.

Формула изобретения RU 2 820 743 C1

Способ получения ректифицированных изображений документов, сложенных пополам, заключающийся в поступлении на вход модели предъявления документа, причем верхняя половина изображения содержит большую часть верхней половины документа, а нижняя половина изображения содержит большую часть нижней половины документа, при этом высота больше ширины, отличающийся тем, что исходное изображение I делится пополам на верхнюю часть I^t и нижнюю часть I^b, строится грубое приближение половин документа двумя четырехугольниками, для этого к обеим половинам применяется алгоритм локализации четырехугольников, основанный на детекции границ и прямых, выходом которого является набор четырехугольников, отсортированных по их контурной оценке, таким образом получается множество четырехугольников Q^t, расположенных на I^t, и множество четырехугольников Q^b, расположенных на I^b, при этом каждая пара четырехугольников используется для того, чтобы составить шестиугольник, который бы представлял внешние границы сложенного документа на изображении, к каждому сформированному и уточненному шестиугольнику применяется алгоритм коррекции, после этого шестиугольники сортируются по их контурной оценке и тот, у которого самая высокая контурная оценка, является выходом из этапа локализации, последним этапом является отображение входного изображения, определяемого двумя проективными преобразованиями.

Документы, цитированные в отчете о поиске Патент 2024 года RU2820743C1

СПОСОБ И СИСТЕМА ИСПРАВЛЕНИЯ ПЕРСПЕКТИВНЫХ ИСКАЖЕНИЙ В ИЗОБРАЖЕНИЯХ, ЗАНИМАЮЩИХ ДВУХСТРАНИЧНЫЙ РАЗВОРОТ	2016	Загайнов Иван Германович	RU2631765C1
US 20170076169 A1, 16.03.2017
US 10991081 B1, 27.04.2021
CN 111353961 A, 30.06.2020
US 7463772 B1, 09.12.2008.

RU 2 820 743 C1

Авторы

Арлазаров Владимир Викторович

Ершов Александр Михайлович

Николаев Дмитрий Петрович

Тропин Даниил Вячеславович

Даты

2024-06-07—Публикация

2023-11-24—Подача

название	год	авторы	номер документа
Способ определения копии документа по цветному изображению документа	2024	Падас Ольга Александровна Кунина Ирина Андреевна Николаев Дмитрий Петрович	RU2840263C1
Способ измерения дальности до вагона на прямолинейном участке железнодорожного пути	2021	Кудинов Игорь Алексеевич Холопов Иван Сергеевич	RU2769453C1
Способ измерения дальности до вагона с помощью видеокамеры	2023	Кудинов Игорь Алексеевич Никифоров Михаил Борисович Холопов Иван Сергеевич	RU2811525C1
Способ детектирования голографической защиты на документах в видеопотоке	2021	Арлазаров Владимир Викторович Коляскина Лейсан Ильдаровна Николаев Дмитрий Петрович Полевой Дмитрий Валерьевич Тропин Даниил Вячеславович Усилин Сергей Александрович	RU2771005C1
Способ валидации ответов систем локализации и идентификации документов с помощью глобальных особенностей	2023	Арлазаров Владимир Викторович Скорюкина Наталья Сергеевна Шальнова Евгения Александровна	RU2826893C1
Способ поиска машиночитаемой зоны документа на изображении с помощью ИНС, содержащей прямое и транспонированное преобразования Хафа	2024	Ершова Дарья Михайловна Гайер Александр Вячеславович Шешкус Александр Владимирович Арлазаров Владимир Викторович	RU2833293C1
Способ определения (распознавания) факта предъявления цифровой копии документа в виде пересъемки экрана	2021	Арлазаров Владимир Викторович Николаев Дмитрий Петрович Полевой Дмитрий Валерьевич Слугин Дмитрий Геннадьевич Кунина Ирина Андреевна Сигарева Ирина Витальевна	RU2774058C1
Способ измерения дальности от маневрового тепловоза до вагона на прямолинейном участке железнодорожного пути	2020	Кудинов Игорь Алексеевич Холопов Иван Сергеевич	RU2750364C1
Способ детектирования пальцев на изображениях документов, снятых в неконтролируемых условиях	2024	Толстенко Лада Сергеевна Кунина Ирина Андреевна	RU2831508C1
СПОСОБ И УСТРОЙСТВО ОБРАБОТКИ СТЕРЕОИЗОБРАЖЕНИЙ	2016	Петричкович Ярослав Ярославович Гусев Владимир Валентинович Лоторев Виталий Юрьевич Решетникова Юлия Борисовна Андреев Александр Андреевич Солохина Татьяна Владимировна Беляев Андрей Александрович Хамухин Анатолий Владимирович Леонтьев Антон Викторович Фролов Дмитрий Сергеевич Кузнецов Денис Александрович Путря Федор Михайлович Функнер Александр Александрович Меньшенин Леонид Владимирович	RU2623806C1