Изобретение относится к области оптического распознавания символов и, в частности, к способам распознавания рукописного текста из растрового изображения.
Известен способ распознавания текстовой информации, при котором растровое изображение разбивают на области, предположительно содержащие изображения символов текста, с последующим сопоставлением изображения в областях с эталонным изображением, содержащимся в одном или нескольких дополнительных признаковых классификаторах.
Такой способ реализуется в способе распознавания символов по патенту США №5680479, Октябрь 21, 1997.
Недостатком этого способа является то, что в случае распознавания символа зачеркивания результатом является один из символов, подходящий по очертаниям с наибольшей степенью надежности на рисунок линий зачеркивания. Это приводит к ошибке распознавания, поскольку практически всегда этот символ не совпадает с тем, который зачеркнут. Кроме того, известные способы не воспринимают такой результат как ошибку распознавания.
Известный способ не позволяет идентифицировать наличие зачеркнутого символа, что приводит к ошибкам распознавания.
Техническим результатом изобретения является повышение правильности распознавания рукописных символов, повышение помехозащищенности распознавания, обеспечение возможности идентификации зачеркнутых символов.
Это достигается тем, что в системе организуют дополнительный признаковый классификатор, содержащий признаки множества разновидностей символов зачеркивания. При достаточно надежном совпадении с элементом указанного классификатора, символ классифицируют как зачеркнутый и направляют на дополнительную обработку.
Реализация этого способа позволяет существенно повысить качество распознавания рукописных символов, улучшить помехозащищенность распознавания.
Указанные недостатки значительно ограничивают возможности использования известных способов для распознавания текстовой информации.
Известные способы непригодны для достижения заявленного технического результата.
Предлагаемый способ отличается тем, что для распознавания зачеркнутых символов рукописного текста из растрового изображения в системе организуют один обобщенный или несколько частных дополнительных классификаторов, содержащих признаки символов зачеркивания, и используют иную последовательность обработки символа.
Общий классификатор обучают на всем известном наборе признаков зачеркивания. Частные классификаторы обучают на однотипном массиве признаков. Такие классификаторы позволяют выбрать между символом зачеркивания и похожим на него обычным символом. Наиболее типичные символы, сходные с символами зачеркивания, на базе которых создают частные классификаторы, - “3”, “З”, “8”, “Ж” и др.
Распознавание зачеркнутого символа начинают с применения структурных или признаковых классификаторов символов. При появлении многозначного результата, обращаются к одному или более дополнительному признаковому классификатору для уменьшения числа предполагаемых символов. При достижении единственного результата распознанного символа организуют проверку одним общим или несколькими частными дополнительными классификаторами, содержащими признаки различных видов зачеркивания. При достаточно близком совпадении с элементом дополнительного классификатора символ идентифицируют как зачеркнутый и направляют его на дополнительную обработку. Дополнительная обработка может состоять в привлечении оператора для распознавания или в применении полностью автоматизированного способа.
Сущность предложения иллюстрируется на чертеже.
Объектом обработки является графическая область с изображением зачеркнутого символа, выделенная из растрового изображения документа.
Изображение символа поступает в один или последовательно в несколько структурных классификаторов для проведения операции распознавания. Структурные классификаторы являются в заявляемом способе предпочтительным основным инструментом распознавания символов. В результате распознавания образуются один или более вариантов возможных символов вместе с уровнями доверия каждому варианту. В случае множественного результата распознавания, полученные варианты распознанных символов далее направляются на проверку в один или несколько признаковых классификаторов. Признаковые классификаторы являются в заявляемом способе основным инструментом для уменьшения числа предполагаемых вариантов распознанных символов. Признаковые классификаторы проводят распознавание способами, отличными от структурных классификаторов, что при одновременном использовании классификаторов обоих видов значительно повышает общую надежность распознавания. После проверки в структурных и признаковых классификаторах число возможных вариантов значительно уменьшается и повышается их надежность.
Далее проводят проверку символа в одном общем или нескольких частных дополнительных признаковых классификаторах, предварительно прошедших обучение на символах зачеркивания. В результате работы дополнительного классификатора принимают решение об отнесении символа к зачеркнутым либо принятии варианта, полученного на предыдущих этапах. Символ, считающийся зачеркнутым, направляют на последующую дополнительную обработку, дополнительная обработка может быть полностью автоматизированной или требовать привлечения оператора.
Принцип работы следующий. Графическую область 1 с изображениями зачеркнутого символа направляют для анализа в один или более классификатор для распознавания символа (7).
В качестве более предпочтительной реализации используют классификаторы двух типов. Первичный анализ проводят с помощью по крайней мере одного основного структурного классификатора 2. В случае появления множественного результата работы классификатора 2, варианты символов вместе с исходной графической областью 1 направляют для уточнения в один или более признаковый классификатор 3. Далее исходную графическую область 1, вместе с результатами распознавания на предыдущих этапах направляют в дополнительный признаковый классификатор символов зачеркивания 4.
При совпадении с достаточно высокой надежностью с элементом дополнительного классификатора 4 символ идентифицируют как зачеркнутый. Далее этот символ направляют на дополнительную обработку зачеркнутых символов 5, после чего распознавание символа завершают 6.
Изобретение относится к оптическому распознаванию символов. Его использование при распознавании рукописного текста из растровых изображений обеспечивает технический результат в виде повышения правильности и помехозащищенности распознавания рукописных символов за счет идентификации зачеркнутых символов. Способ характеризуется делением изображения на области, выявлением областей с рукописными символами, применением структурных и признаковых классификаторов для распознавания символов, использованием структурного классификатора как основного инструмента распознавания, выбором наиболее подходящего из нескольких вариантов символов. Технический результат достигается благодаря тому, что распознавание символа включает в себя распознавание символа по крайней мере одним дополнительным признаковым классификатором символов зачеркивания, осуществляющим одновременное сравнение с символом зачеркивания и по крайней мере одним похожим на него обычным символом, и идентификацию символа как зачеркнутого в случае большего соответствия признакам символов зачеркивания. 1 ил.
Способ идентификации зачеркнутых символов при распознавании рукописного текста, характеризующийся делением распознаваемого изображения на области, выявлением областей, содержащих рукописные символы, применением структурных и признаковых классификаторов для распознавания и проверки правильности распознавания символов, использованием по крайней мере одного структурного классификатора как основного инструмента распознавания символов, выбором наиболее подходящего из нескольких вариантов символов, если на предыдущем этапе не удалось распознать символ однозначно, отличающийся тем, что распознавание символа включает по крайней мере выполнение следующей последовательности действий: распознавание символа по крайней мере одним дополнительным признаковым классификатором символов зачеркивания, осуществляющим одновременное сравнение с символом зачеркивания и по крайней мере одним похожим на него обычным символом, идентификацию символа как зачеркнутого в случае большего соответствия признакам символов зачеркивания.
US 5680479 A, 21.10.1997 | |||
Оптоэлектронный обучаемый классификатор | 1972 |
|
SU440680A1 |
СПОСОБ ТАЙНОГО ГОЛОСОВАНИЯ ИЗБИРАТЕЛЬНЫМИ БЮЛЛЕТЕНЯМИ | 2001 |
|
RU2178203C1 |
Форма для изготовления гипсовых звукопоглащающих плит с перфорированной лицевой поверхностью | 1982 |
|
SU1063606A2 |
US 6052481 A, 18.04.2000.US 5828783 A, 27.10.1998 | |||
US 5647022 A, 08.07.1997 | |||
US 5257323 A, 26.10.1993 | |||
US 5218538 A, 08.06.1993. |
Авторы
Даты
2005-05-10—Публикация
2002-12-17—Подача