Изобретение относится к области оптического распознавания символов в полях форм ввода и, в частности, к способам подготовки изображения и/или шаблона к проведению операций распознавания текста из растрового изображения при наличии искажений изображения, вызванных обработкой внешними устройствами.
Известен способ распознавания текстовой информации, при котором растровое изображение разбивают на области, содержащие текст, и области, содержащие нетекстовые объекты.
Проводят предварительную обработку растрового изображения, позволяющую определить и скорректировать искажения, появившиеся в результате обработки внешними устройствами.
При этом в качестве ориентиров для оценки горизонтального и/или вертикального направления используют направление ориентации строк, предполагая их горизонтальными.
Известны способ и устройство для обнаружения углов наклона изображения, которые описываются в патенте США №5563403 (October 8, 1996). Вычисление угла наклона изображения осуществляется по набору точек-ориентиров, по координатам которых вычисляют регрессионный коэффициент. Регрессионный коэффициент используют для определения угла наклона изображения. В одном изображении выделяют несколько наборов точек для определения угла наклона. Это позволяет снизить вероятность ошибки.
Способ и устройство позволяют определять и исправлять незначительные углы наклона изображения и требуют для эффективной обработки больших блоков печатного текста.
Известны также способ и устройство для определения наклона изображения и искажения его размеров и формы - патенты №5818976 (October 6, 1998) и №6064778 (May 16, 2000). В предложенных реализациях способов и устройства искажения и наклон вначале определяют и частично компенсируют аппаратно, затем обрабатывают математически. Согласно предложенным способам, вычисляют ряд опорных точек, через которые проводят предположительно вертикальные или горизонтальные линии. По расстоянию между полученными горизонтальными линиями оценивают искажения формы и размеров, а по наклону вертикальных линий - угол наклона изображения.
Способы и устройства не приспособлены для обработки машиночитаемых форм, а также при больших искажениях размера и формы документа.
В патенте США №5828771 (October 27, 1998) предлагается способ определения по наличию специфических искажений является ли документ оригинальным или переданным с помощью факсимильного аппарата. Основными параметрами для оценки искажений являются специфические признаки изменения параметров разрешения до 100-200 точек на дюйм, характерных для факсимильных аппаратов.
Способ может применяться очень ограниченно и способен обрабатывать малые значения искажений.
Известен способ (патент США №6014470, January 11, 2000) определения и компенсации искажения изображения, вызванного искривлением поверхности страницы. Определение и исправление искажения полностью базируется на том, что искаженная строка символов принимает форму дуги окружности, и для компенсации такого искажения необходимо вычислить параметры окружности.
Способ имеет очень ограниченное применение, поскольку направлен на определение и исправление искажения только одного вида.
В патенте США №6470091 (October 22, 2002) предлагается способ поиска и распознавания адресной надписи на почтовом конверте. Основой способа является известное местоположение и известный формат адресной надписи, что позволяет распознавать ее элементы, слова и в конечном итоге - автоматизировать сортировку почтовой корреспонденции.
Способ позволяет обрабатывать документы единственного типа (адресная часть почтовых конвертов) и не предполагает обработку искажений, возникающих при сканировании изображения.
Известные способы не позволяют корректировать значительные искажения изображения (превышающие 10% исходного размера изображения).
Техническим результатом изобретения является повышение возможности коррекции искажений изображения машиночитаемых форм, возникающих при обработке его внешними устройствами, расширение возможности обработки линейных и нелинейных искажений.
Указанный технический результат достигается тем, что после сканирования изображение машиночитаемой формы разбивают на области, содержащие изображения полей ввода, специальных реперов линий и др. объектов. После этого все объекты, которые могут присутствовать на форме, подразделяют на ряд категорий по степени надежности идентификации. Затем обнаруженным на форме изображениям объектов присваивают коэффициенты надежности идентификации и проводят анализ соответствия положения и углов наклона объектов изображения координатам, заданным в форме шаблона, не имеющей искажений.
Согласно одному из вариантов способа вычисляют значения искажений относительно каждого объекта. Затем для каждой группы объектов одного уровня надежности идентификации вычисляют обобщенный поправочный коэффициент изменения (пространственных характеристик) размеров или координат. Этот коэффициент применяют для компенсации искажений всех объектов того же уровня надежности идентификации и ниже. После этого переходят к объектам следующего более низкого уровня надежности идентификации.
В соответствии с другим вариантом способа вычисляют значения искажений относительно каждого объекта. Затем все значения искажений вместе с типами (категорией) объектов как весовыми коэффициентами объединяют в один обобщенный показатель - поправочный коэффициент, который затем применяют к координатам и/или размерам каждого объекта для компенсации искажений.
Необходимые пояснения для предлагаемого способа следующие. Для уверенной компенсации искажений, в особенности нелинейных и значительных линейных, необходимо иметь в системе данные о шаблоне формы без искажений.
Шаблон формы
Информация о распознаваемой форме без искажений должна в том или ином виде присутствовать в системе. Описание формы задают с помощью шаблона. Шаблон содержит описание всех объектов формы. При этом для объекта задают:
- координаты объекта на бланке и его геометрическую форму,
- имя поля - с именем поля связывают тип заносимой в него информации, а также адрес передачи результатов распознавания,
- параметры распознавания - такие как тип текста (рукописный, печатный), допустимый интервал возможных значений набора символов, перечень словарей, применяемых для проверки содержимого поля,
- другую информацию для последующей обработки, верификации и сохранения результатов распознавания.
Координаты полей в шаблоне и на сканированном изображении могут не совпадать в виду наличия искажений, возникающих при печати бланков и при сканировании.
Виды искажений
При печати бланков форм на внешних устройствах (в типографии, на принтере) могут возникать следующие искажения изображения:
небольшие смещения по горизонтали и по вертикали,
небольшие растяжения/сжатия по горизонтали и по вертикали,
поворот на небольшой угол,
В процессе сканирования бумажных форм возникают более значительные искажения:
- смещения по горизонтали и по вертикали,
- поворот на большой угол,
- изменение разрешающей способности сканеров по горизонтали,
- изменение разрешающей способности по вертикали - определяется скоростью движения считывающего элемента, которая может быть непостоянной даже для одного сканера в зависимости от степени прогрева, уровня напряжения сети и других факторов,
- небольшие нелинейные растяжения/сжатия по вертикали - скорость сканирования может меняться в пределах одного изображения.
Все искажения за исключением нелинейных моделируются аффинным преобразованием.
Задача выделения полей на форме стандартного бланка, таким образом, сводится к подбору коэффициентов обратного аффинного преобразования.
Способ совмещения шаблона и изображения.
Для совмещения шаблона и изображения необходимо подобрать коэффициенты аффинного преобразования так, чтобы при применении этого преобразования к форме шаблона или к форме изображения указанные в шаблоне области полей совмещались бы с соответствующими областями на изображении заполненной формы.
Наиболее последовательный и хорошо зарекомендовавший себя при решении задач обработки сигналов способ основан на вычислении корреляционной функции:
(х, у, ...)=arg max RTI(x, у, ...),
где RTI (х, у, ...) - корреляционная функция между изображением (I) и шаблонным изображением (Т),
RTI(x, у, ...)= T (х,у, ...)I(х-х, у-у, ...) dx dy d...
Прямое вычисление корреляционной функции для изображения требует значительного объема вычислений - n2m, где n – размер изображения в пикселях (1000-2000), m=5 – количество параметров (смещения по вертикали и по горизонтали, угол поворота, растяжение/сжатие по вертикали и по горизонтали).
Для уменьшения объема вычислений применяют данный способ отдельно к различным группам параметров. Это допустимо, так как рассматриваемый диапазон параметров достаточно узок, вследствие чего весьма маловероятно наличие ложного максимума на проекции корреляционной функции на выбранные параметры. Поэтому можно вычислять отдельно по видам искажений следующим образом:
- вычисление смещений,
- вычисление угла поворота,
- вычисление коэффициента горизонтального растяжения/сжатия,
- вычисление коэффициента вертикального растяжения/сжатия.
Вычисление смещения не удается разбить на независимое вычисление смещений по горизонтали и по вертикали, так как из-за близости к периодической строчной структуре изображения на проекциях корреляционной функции появляются ложные максимумы.
Дальнейшую оптимизацию основывают на выборе адекватного представления изображения.
Представление изображения
В большинстве систем сегментации изображения печатных документов принято переходить к представлению изображения в виде списка прямоугольников, соответствующих связным областям изображения, как правило, буквам и разделительным линиям. Это представление оказывается достаточной аппроксимацией для работы алгоритмов сегментации.
Основой данного изобретения является способ вычисления корреляционной функции для изображения, представленного списком связных областей.
Аналогичное представление необходимо и для формы шаблона.
Оптимизация вычисления корреляционной функции для представления изображения в виде списка прямоугольников
Изображение, представляемое списком прямоугольников, может быть интерпретировано как суперпозиция нескольких изображений, каждое из которых содержит один из прямоугольников:
I=ΣIk, где Ik - это изображение одного прямоугольника аналогично для шаблона;
Т=ΣTk, где Tk - это изображение одного прямоугольника.
При этом фактом, что прямоугольники могут пересекаться, пренебрегают.
Тогда корреляционная функция RTI разлагается следующим образом:
RTI=T(x,y)I(x-х, у-у) dx dy=ΣTi(x,y)ΣIk(x-х, у-у) dx dy=ΣikTi(x,y)Ik(x-х, у-у) dx dy,
т.е. на сумму корреляционных функций отдельных прямоугольников. Однако изображение прямоугольника представляется как произведение функций Хевисайда:
Ik(x, у)=θ(х-x1k)θ(x2k-х)θ(у-y1k)θ(y2k-у),
где х1k, x2k, y1k, y2k - координаты прямоугольника;
Ik(x, у)=θ(х-x1k)θ(x2k-х)θ(у-y1k)θ(y2k-у)=(δ(x-x1k)δ(y-y1k)-δ(x2k-x)δ(y-y1k)-δ(x2k-х)δ(у-y1k)+δ(x2k-x)δ(y2k-y)) dx dy,
где δ(x-xjk) - дельта-функция на границе прямоугольника.
Аналогично для Тi(х,у):
Ti(х, у)=θ(х-х1i)θ(х2i-х)θ(у-у1i)θ(у2i-у)=(δ(x-x1i)δ(y-у1i)-δ(x2i-х)δ(у-у1i)-δ(х2i-х)δ(у-у1i)+δ(x2i-х)δ(у2i-y))dx dy.
Тогда корреляционная функция двух прямоугольников может быть вычислена следующим способом:
Ti(x,y)Ik(x-х, у-у) dx dy=Fik(x, у) dx dy
Fik(x, y)=[δ(x-(x2i-x1k))-δ(x-(x2i-x2k))-δ(x-(x1i-x1k))+δ(x-(x1i-X2k))]
[δ(y-(y2i-y1k))-δ(y-(y2i-y2k))-δ(y-(y1i-y1k))+δ(y-(y1i-y2k)]
Корреляционная функция изображения и шаблона выражается через
Fik(x, y) следующим образом:
RTI=ΣikTi(x,y)Ik(x-х, у-у) dx dy=ΣikFik(x, у) dx dy=ΣikFik(x, у) dx dy
Если вернуться к дискретному представлению, то ΣikFik(x, у) является двумерной гистограммой, заполняемой следующим алгоритмом:
Для каждой пары прямоугольников изображения и шаблона:
Добавить "1" в гистограмму в точках:
(x2i-x1k, y2i–y1k)
(x1i-x2k, y2i-y1k)
(x2i-x2k, y2i-y2k)
(x1i-x1k, y2i-y2k)
(x2i-x2k, y1i-y1k)
(x1i-x1k, y1i-y1k)
(x2i-x1k, y1i-y2k)
(x1i-x2k, y1i-y2k)
Добавить "-1" в гистограмму в точках
(x2i-x2k, y2i-y1k)
(x1i-x1k, y2i-y1k)
(x2i-x1k, y2i-y2k)
(x1i-x2k, y2i-y2k)
(x2i-x1k, y1i-y1k)
(x1i-x2k, y1i-y1k)
(x1i-x1k, y1i-y2k)
(x2i-x2k, y1i-y2k)
После интегрирования двумерной гистограммы получают искомую корреляционную функцию. При этом интегрирование производят один раз, а не для каждого значения параметра корреляционной функции, т.е. объем вычислений понижается на порядок.
Дополнительный этап - накопление двумерной гистограммы, хотя и является квадратичным, работает быстро, так как количество прямоугольников значительно меньше, чем количество пикселей.
Данный способ описан на примере вычисления корреляционной функции для смещений. Вычисление коэффициентов остальных линейных преобразований выполняют аналогичным образом.
Для компенсации местных нелинейных искажений в одном или двух направлениях применяют выделение на изображении областей, подверженных нелинейным искажениям, и обработку указанных областей отдельно от остального изображения способами, применяемыми для линейных искажений. При этом размер области выбирают более размера искаженной части.
Сущность предложения иллюстрируется на фигурах 1-5.
Фиг.1. Пример изображения формы.
Фиг.2. Пример изображения формы с выделенными связными областями.
Фиг.3. Представление изображения в виде списка прямоугольников.
Фиг.4. Представление шаблона в виде списка прямоугольников.
Фиг.5. Выделение на изображении областей, имеющих искажения.
Предполагаются два варианта способа осуществления изобретения.
Согласно первому варианту выполняют следующие действия.
Назначают, какая из двух форм - форма изображения или форма шаблона - будет подвергаться коррекции для компенсации имеющихся искажений.
Отсканированное изображение машиночитаемой формы, содержащее искажения, разбивают на ряд непересекающихся областей с условием, что искажения в пределах каждой области могут обрабатываться как линейные и пределы распространения искажений менее размера области. При отсутствии значительных нелинейных искажений может быть выделена одна область, равная всему отсканированному изображению.
После этого весь перечень объектов, которые могут встретиться на форме, подразделяют на несколько типов, отличающихся уровнем надежности идентификации на изображении и степенью подверженности искажениям пространственных параметров.
На отсканированном изображении идентифицируют объекты, соотносят каждый из объектов с одним из типов. Для каждого объекта определяют уровень надежности идентификации по его типу.
Для каждой выбранной области и каждого типа объектов, начиная с самых надежно идентифицируемых, последовательно снижая уровень до самого нижнего, выполняют следующие действия:
- устанавливают соответствия между тождественными объектами формы изображения и формы шаблона,
- вычисляют коэффициенты коррекции пространственных параметров объектов выбранного уровня,
- корректируют пространственные параметры формы, принятой за изменяемую, с учетом вычисленных коэффициентов, затрагивая только объекты выбранного уровня надежности идентификации и ниже.
Переходят к дальнейшей обработке изображения формы.
Согласно второму варианту выполняют следующие операции (действия).
Выбирают какая из двух форм - форма изображения или форма шаблона - будет подвергаться коррекции для компенсации имеющихся искажений. Выбор делают произвольно, исходя, например, из имеющегося инструментария для дальнейшей обработки, выбранного технологического процесса обработки и др.
Отсканированное изображение машиночитаемой формы, содержащее искажения, разбивают на ряд непересекающихся областей с условием, что искажения в пределах каждой области могут обрабатываться как линейные и пределы распространения искажений менее размера области. При отсутствии значительных нелинейных искажений может быть выделена одна область, равная всему отсканированному изображению.
После этого весь перечень объектов, которые могут встретиться на форме, подразделяют на несколько типов, отличающихся уровнем надежности идентификации на изображении и степенью подверженности искажениям пространственных параметров (в том числе геометрической формы и размеров).
На отсканированном изображении идентифицируют объекты, соотносят каждый из объектов с одним из типов. Для каждого объекта определяют уровень надежности идентификации по его типу. Например, зачерненный квадратный объект имеет уровень надежности идентификации выше, чем незачерненный. Перекрещивающиеся отрезки прямых имеют уровень надежности идентификации выше, чем символ и т.д.
Для каждой выбранной зоны, а также для объектов каждого типа выполняют следующие действия:
устанавливают соответствия между тождественными объектами формы изображения и формы шаблона,
вычисляют частные коэффициенты коррекции пространственных параметров (в т.ч. положения, масштаба, сдвига, наклона и размеров) формы, принятой за изменяемую, для каждого объекта, встречающегося на форме,
вычисление единого обобщенного коэффициента коррекции пространственных параметров для формы, принятой за изменяемую, исходя из частных коэффициентов коррекции, вычисляемых для отдельных объектов с учетом их уровней надежности идентификации,
коррекция пространственных параметров (в т.ч. размеров, масштаба по одной или двум осям, наклона, сдвига, скоса) формы, принятой за изменяемую, с учетом указанного единого обобщенного коэффициента.
Переходят к дальнейшей обработке изображения формы. Обычно это распознавание текста в полях ввода формы.
За изменяемую принимают форму шаблона или форму изображения. На каждом этапе вычисляют оценку качества сопоставления объектов.
Производят оценку ориентации изображения и установление правильной ориентации. Оценку правильности ориентации проводят любым известным способом. Например, [5].
Производят подтверждение соответствия формы изображения сравниваемой форме шаблона.
За один сеанс работы может проверяться на соответствие несколько шаблонов.
Компенсация искажений может проводиться по одной или двум осям.
Возможно проводить компенсацию линейных, нелинейных искажений, а также сдвига, перекоса, масштаба, углов наклона.
Малые углы наклона изображения допускается корректировать как сдвиг.
Дальнейшая обработка включает в том числе распознавание символов в полях формы.
Библиография
1. J. Yuan, L. Xu, C.Y. Suen, "Form Items Extraction By Model Matching", ICDAR91, pp.210-218.
2. D. Wang, S. Srihari, "Analysis of form images", ICDAR91, pp. 181-191.
3. Y. Belaid, A. Belaid, E. Turolla, "Item Searching in Forms: Application to French Tax Form", ICDAR95, pp. 744-747.
4. A. Agarwal, L. Granowetter, К. Hussein, A. Gupta, "Detection of Curtesy Amount Block on Bank Checks", ICDAR95, pp.748-751.
5. J. Yuan, Y. Tang, C. Suen, "Four directional adjacency graphs and their application in locating fields in forms", ICDAR95, pp. 752-755.
6. D.Wang, S.N.Srihari "Analysis of Form Images" Series in Machine Perception and Artificial Intelligence. - Vol.16, 1996, p.p. 1031-1036.
7. E.Ardizzone, V. Di Gesu "Content-Based Indexing and Video Databases by Global and Shape Features." International Conference on Pattern Recognition, August 25-29, 1996, Vienna, Austria, p.p. 140-144.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ВНУТРИТРУБНОЙ ДИАГНОСТИКИ ГЛУБИНЫ ДЕФЕКТОВ СТЕНКИ ТРУБЫ | 2009 |
|
RU2444675C2 |
СПОСОБ ИЗМЕРЕНИЯ КООРДИНАТ ОБЪЕКТА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2008 |
|
RU2438142C2 |
СПОСОБ ОПРЕДЕЛЕНИЯ ХАРАКТЕРИСТИК ОСКОЛОЧНОГО ПОЛЯ СНАРЯДА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2011 |
|
RU2470310C1 |
СПОСОБ ФОРМИРОВАНИЯ РАДИОЛОКАЦИОННЫХ ИЗОБРАЖЕНИЙ | 2014 |
|
RU2578126C1 |
СПОСОБ ОПРЕДЕЛЕНИЯ ХАРАКТЕРИСТИК ПОЛЯ ПОРАЖЕНИЯ СНАРЯДА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2011 |
|
RU2502947C2 |
СПОСОБ КОРРЕЛЯЦИОННОГО МОДЕЛИРОВАНИЯ НАРУШЕНИЯ СОЕДИНЕНИЯ КРИТИЧЕСКИХ КОМПОНЕНТОВ ПОДЪЕМНИКА ДЛЯ ГЛУБОКОЙ СКВАЖИНЫ В УСЛОВИЯХ НЕПОЛНОЙ ИНФОРМАЦИИ | 2018 |
|
RU2714852C1 |
Способ управления пулей и управляемая пуля | 2019 |
|
RU2719802C1 |
РАДИОЛОКАЦИОННАЯ СИСТЕМА ЦЕЛЕУКАЗАНИЯ | 1995 |
|
RU2096804C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ДАННЫХ О ПОЛЯРИЗАЦИИ ЧУВСТВИТЕЛЬНОЙ К ПОЛЯРИЗАЦИИ ОПТИЧЕСКОЙ КОГЕРЕНТНОЙ ТОМОГРАФИИ | 2014 |
|
RU2598052C2 |
СПОСОБ НАВИГАЦИИ ДВИЖУЩИХСЯ ОБЪЕКТОВ | 2013 |
|
RU2542720C1 |
Изобретение относится к оптическому распознаванию символов. Его использование при распознавании текста, введённого в поля шаблона, обеспечивает технический результат в виде повышения возможности коррекции искажений в изображениях машиночитаемых форм. Этот результат достигается за счёт того, что назначают одну из форм шаблона или изображения в качестве изменяемой формы, а другую – неизменяемой; выделяют на форме изображения те области, которые содержат искажения; подразделяют все объекты на форме на несколько типов по надежности идентификации на изображении; назначают каждому объекту на форме изображения уровень надежности идентификации; для каждой области и для объектов каждого типа: устанавливают соответствие между тождественными объектами формы изображения и формы шаблона, вычисляют частные коэффициенты коррекции искажений пространственных параметров изменяемой формы, вычисляют единый обобщенный коэффициент коррекции пространственных параметров для изменяемой формы и корректируют пространственные параметры изменяемой формы с учетом этого единого коэффициента. 2 с. и 30 з.п.ф-лы, 5 ил.
US 6470091 B1, 22.10.2002 | |||
СПОСОБ АДАПТИВНОГО РАСПОЗНАВАНИЯ ИНФОРМАЦИОННЫХ ОБРАЗОВ И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 1999 |
|
RU2160467C1 |
US 6195101 B1, 27.02.2001 | |||
US 6064778 A, 16.05.2000 | |||
US 6014470 A, 11.01.2000 | |||
US 5912988 A, 15.06.1999.US 5828771 A, 27.10.1998 | |||
Форма для изготовления гипсовых звукопоглащающих плит с перфорированной лицевой поверхностью | 1982 |
|
SU1063606A2 |
Система регулирования напряжения генератора переменного тока | 1971 |
|
SU353644A1 |
Авторы
Даты
2005-05-10—Публикация
2003-01-28—Подача