Изобретение относится к области распознавания символов и текста, в частности к способам предварительного анализа растрового изображения и выполнению действий, предшествующих процедурам распознавания символов.
Известные способы предварительной обработки растрового изображения предполагают сканирование информации с бумажного или другого жесткого носителя, например микрофиш, перевод изображения в графический файл, или получение его другим способом, разбиение графического файла на объекты с последующей обработкой объектов каждого типа специальными способами.
Это не позволяет провести максимально полный и всесторонний анализ объектов, поскольку использует лишь ограниченный объем информации.Кроме того, эти способы требуют применения значительного перечня специальных процедур по числу видов объектов с вариантами реализации их параметров.
Такой способ представлен, например, в патенте США №6,408,094 June 18, 2002.
Известен способ предварительной обработки растрового изображения, который предполагают сканирование информации с бумажного или другого жесткого носителя, перевод изображения в графический файл, разбиение графического файла на объекты с последующей обработкой объектов каждого типа специальными способами. Особенностью указанного способа является то, что он позволяет работать только с параметрами формы символов.
Это не позволяет провести максимально полный и всесторонний анализ объектов, поскольку не учитывает другие параметры, например пространственные соотношения символов.
Такой способ представлен, например, в патенте США №5,594,815 January 14, 1997.
Недостатком способов указанного вида является низкое качество, недостаточная полнота предварительного анализа распознаваемого текста, малая защищенность от ошибок, значительный перечень необходимых процедур.
Техническим результатом изобретения является повышение качества предварительного анализа растрового изображения, уменьшение числа необходимых специальных процедур, снижение чувствительности к ошибкам.
Это достигается тем, что на этапе предварительной обработки все растровое изображение представляют через его части - объекты разных уровней сложности, иерархически связанные между собой пространственно-параметрическими соотношениями. Далее, переходя от более сложных объектов к менее сложным, последовательно выдвигают и проверяют гипотезы об из пространственно-параметрических соотношениях.
Известны способы, включающие разбиениение растрового изображения и установление логических связей между объектами одной и разных степеней сложности.
Примерами такого способа являются, например, работа [1] и патенты США №6,038,342 March 14, 2000; №5,848,184 December 8, 1998.
В качестве прототипа выбран патент США №6,038,342 March 14, 2000.
Недостатками указанных способов является значительное количество специальных процедур обработки объектов каждого вида, а также ограниченность получаемой дополнительной информации для анализа других объектов как следствие недостаточного анализа взаимосвязей объектов.
Указанные недостатки значительно ограничивают возможности использования известных способов для предварительного анализа распознаваемой информации.
Известные способы непригодны для достижения заявленного технического результата.
Предлагаемый способ отличается тем, что все растровое изображение представляют как многоуровневый объект, в котором более сложные объекты представляют через входящие в них менее сложные, иерархически связанные между собой пространственно-параметрическими соотношениями.
Весь перечень объектов, которые могут присутствовать в растровом изображении, предварительно подразделяют на несколько уровней, отличающихся степенью сложности, устанавливают принадлежность каждого найденного объекта одному из уровней сложности, устанавливают связи между объектами разных уровней сложности, а также между объектами внутри каждого уровня, проводят анализ информации о свойствах объектов, который состоит по крайней мере из следующих однотипных для любого уровня действий - выдвижения гипотезы о свойствах объекта и проверки гипотезы о свойствах объекта с привлечением информации, полученной при анализе свойств по крайней мере одного объекта другого уровня сложности, выполнения рекурсивного сечения для получения дополнительной информации об объектах.
Обработку информации растрового изображения проводят предварительно подразделив все объекты, которые могут встретиться в информации, содержащейся в растровом изображении, на ряд уровней, отличающихся степенью сложности объектов.
Проводят разбиение информации растрового изображения.
Устанавливают принадлежность объектов выбранным уровням сложности, а также взаимосвязи объектов внутри каждого уровня и между уровнями. Анализируют свойства полученных объектов. Анализ включает по крайней мере следующие шаги - выдвижение гипотезы о свойствах объекта, проверку гипотезы о свойствах объекта с привлечением информации, полученной при анализе свойств объектов других уровней сложности, выполнение рекурсивного сечения для получения дополнительной информации для проверки гипотез о свойствах других объектов.
Рекурсивное сечение растрового изображения состоит в одно- или многократном разбиении изображения на непересекающиеся области с учетом близости пространственных и параметрических характеристик объектов выбранного уровня [2, 3].
Вычисляют ряд характеристик общих для всех объектов области. Далее области анализируют. Определяют ограничения или расширения, накладываемые общими характеристиками на исходные объекты, входящие в область. Корректируют параметры исходных объектов. В случае возникновения значительных расхождений между начальными и вновь вычисленными параметрами, объект может быть исключен из области. В результате анализа некоторые группы сходных областей, разделенные чужеродным для области пространством (для текстовой области - пустым, разделителями, картинками и т.д.), могут быть объединены в единую новую область. В результате объединения подтверждают и/или отвергают ряд предварительных гипотез об исходных объектах и областях. Полученную новую информацию используют для корректировки свойств связанных объектов того же и/или других уровней сложности.
Сущность предложения иллюстрируется фиг.1-3.
Фиг.1 и фиг.2 иллюстрируют разные возможные варианты деления на уровни сложности всех объектов, которые могут встретиться в растровом изображении (тексте).
Фиг.3 отражает перечень однотипных операций, который может выполняться полностью или частично при анализе объектов всех уровней сложности.
На фиг.1 и фиг.2 показаны варианты деления объектов на уровни сложности. Варианты деления определяют в зависимости от вида растрового изображения - сплошной текст, текст с картинками, текст с таблицами, только таблицы и т.д. Возможно задание классификатора с числом уровней сложности более и менее указанных.
На фиг.3 показан перечень операций, достаточный для анализа объектов любого уровня.
Блок 1 - выдвижение гипотезы о свойствах объекта; блок 2 - проверка гипотезы о свойствах объекта с привлечением информации, полученной при анализе свойств объектов другого уровня; блок 3 - корректировка информации о свойствах связанных объектов других уровней сложности; блок 4 - выполнение одного или более рекурсивного сечения для получения дополнительной информации об объектах.
Ограниченное число видов процедур для анализа свойств объектов всех уровней сложности значительно сокращает объем необходимого математического аппарата, повышает качество предварительного анализа растрового изображения.
Изобретение относится к области оптического распознавания текста из растрового изображения. Его применение позволяет получить технический результат в виде повышения качества предварительного анализа информации растрового изображения, уменьшения числа необходимых специальных процедур, повышения чувствительности к ошибкам. Этот результат достигается благодаря тому, что способ включает в себя следующие этапы: подразделение информации растрового изображения на уровни, отличающиеся степенью сложности; разбиение этой информации объекты; установление принадлежности каждого объекта одному из уровней сложности; установление иерархических связей между объектами разных уровней сложности; установление взаимосвязи между объектами одного уровня сложности; проведение анализа свойств объектов, включающий, по меньшей мере, следующие шаги: выдвижение гипотезы о свойствах анализируемого объекта, проверку гипотезы о свойствах анализируемого объекта, корректировку информации о свойствах связанных объектов того же или других уровней сложности. 5 з.п. ф-лы, 3 ил.
СМОТРЯЕВА Я | |||
Технология распознавания изнутри | |||
- ЧИП, 2001, №8, с.104-107 | |||
Аналоговый перемножитель | 1976 |
|
SU602955A1 |
US 5761344 А, 02.06.1998 | |||
Приспособление для точного наложения листов бумаги при снятии оттисков | 1922 |
|
SU6A1 |
Топчак-трактор для канатной вспашки | 1923 |
|
SU2002A1 |
Авторы
Даты
2005-04-27—Публикация
2002-12-17—Подача