Показать метаданные Скрыть метаданные

(19)

(11)

2 251 737

(13)

(51)

МПК

G06K9/68(2000-01-01)

(21) (22)

Заявка

2002127826/09, 2002-10-18

(24)

Дата начала отсчета патента

2002-10-18

(22)

дата подачи заявки

2002-10-18

(45)

опубликовано

2005-05-10

(72)

авторы

Анисимович К.В.Терещенко В.В.Рыбкин В.Ю.

(73)

патентообладатели

Аби Софтвер Лтд.

(56)

Документы, цитированные в отчете о поиске

US 5875256 A, 23.02.1999

СПОСОБ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ЯЗЫКА РАСПОЗНАВАЕМОГО ТЕКСТА ПРИ МНОГОЯЗЫЧНОМ РАСПОЗНАВАНИИ Российский патент 2005 года по МПК G06K9/68

Описание патента на изобретение RU2251737C2

Изобретение относится к области оптического распознавания символов и, в частности, к способам распознавания печатного текста, содержащего фрагменты, написанные на разных языках, из растрового изображения, полученного любым способом.

Известны способы распознавания текстовой информации, в которых принадлежность текста единственному языку задают вручную. Это неприемлемо, когда текст включает фрагменты, написанные на разных языках.

Известные способы распознавания текста предполагают сканирование информации с бумажного или другого жесткого носителя, например микрофиш, перевод изображения в графический файл, разбивку графического файла на области (блоки), предположительно содержащие признаки изображения символов текста, с последующим сопоставлением изображения в блоках с эталонным изображением, в нескольких специальных признаковых (или растровых) классификаторах, содержащих символы одного определенного языка.

Большинство известных способов определяет язык распознаваемого текста на стадии распознавания символов с помощью одного или нескольких классификаторов. Для этого предварительно создают классификаторы с информацией о языках, которые предположительно могут встретиться в тексте. В процессе распознавания изображение символа исследуют последовательно всеми классификаторами. Вместо нескольких отдельных классификаторов иногда используют единственный, содержащий признаки символов всех языков, предположительно присутствующих в документе.

Такой способ представлен, например, в патенте США 6370269 April 9, 2002.

Недостатком описанных способов является недостаточное качество определения языка распознаваемого текста, низкая защищенность от ошибок.

Техническим результатом изобретения является повышение качества распознавания языковой принадлежности текста, большая чувствительность к ошибкам, увеличение быстродействия.

Это достигается тем, что на этапе формирования гипотезы и принятия решения о языковой принадлежности группы символов как слова выбирают перечень используемых лингвистических моделей, и проводят модельную оценку слов, вычисляют комплексную оценку группы символов как слова.

Указанная комплексная оценка в свою очередь может дополнительно учитывать следующие показатели: показатель уверенности распознавания символов, показатель соответствия слов модели, ряд специальных показателей, характеризующих согласованность символов в тексте.

Распознавание символов проводят с помощью классификатора, содержащего признаки символов всех предполагаемых языков.

Реализация этого способа позволяет существенно повысить качество распознавания языковой принадлежности текста, уменьшить чувствительность к ошибкам, увеличить быстродействие.

Известен способ автоматического определения языковой принадлежности слов и частей текста, при котором изображения символов на первом этапе анализируют одним общим или несколькими отдельными классификаторами на принадлежность к определенному языку. Затем набор возможных вариантов распознанных символов, предположительно составляющих слово, направляют в алгоритм контекстного анализа, выдвигают одну или более гипотез о языковой принадлежности набора символов как слова и выбирают один или более словарь для окончательной установки языковой принадлежности. Для повышения качества распознавания всю область текста делят на области и зоны, имеющие общую языковую принадлежность. После окончательного выбора языковой принадлежности требуется провести повторное распознавание.

Такой способ автоматического определения языковой принадлежности распознаваемого текста реализуется в патенте США № 6047251 Апрель 4, 2000.

Недостатком этого способа является низкое быстродействие, вследствие необходимости проверки слов по всем возможным для составляющих слово букв словарям, а также в связи с необходимостью выполнения разбиения распознаваемого текста на зоны и области, а также повторного распознавания, что сильно сужает область применения способа.

Указанные недостатки значительно ограничивают возможности использования известных способов для установления языковой принадлежности распознаваемой информации.

Известные способы непригодны для достижения заявленного технического результата.

Предлагаемый способ отличается тем, что на этапе формирования гипотезы о языковой принадлежности группы символов как слова выполняют следующие действия:

- выбор перечня используемых лингвистических моделей,

- модельная оценка слова.

Кроме того, на достижение технического результата влияет то, что на этапе принятия гипотезы о языковой принадлежности группы символов как слова выполняют

- вычисление комплексной оценки группы символов как слова,

- выбор одного или более словаря для окончательной проверки языковой принадлежности слова.

Указанная комплексная оценка в свою очередь может включать в том числе следующие показатели: показатель уверенности распознавания символов, модельную оценку слова вместе с показателем качества распознавания, ряд специальных показателей, характеризующих согласованность символов в тексте.

Классификатор сравнивает распознаваемое изображение с хранящимися эталонными изображениями.

Далее варианты распознанных символов объединяют в группы, предположительно составляющие слова. Группы символов и варианты распознавания направляют на проверку лингвистическими моделями разных языков и специальных форматов.

Результатом обработки лингвистическими моделями является набор слов и соответствующих им модельных оценок.

Полученные оценки соответствия языковым моделям являются частью комплексной оценки. Комплексная оценка, кроме того, может включать показатели уверенности распознавания символов, специальные показатели, характеризующие согласованность символов и/или слов в тексте, в т.ч. геометрическое согласование символов между собой в пределах слова и/или строки, языковую согласованность слова с соседними словами, словарную оценку слова, оценку правильности восстановления информации символов по растровому изображению при наличии помех.

Сущность предложения иллюстрируется на чертеже.

Группа графических блоков 1 с изображениями букв, предположительно составляющих слово, направляют на распознавание в классификатор 2, содержащий признаки символов нескольких (одного или более) языков.

В результате распознавания в классификаторе 2 получают один или более возможных вариантов каждой буквы 3. Множество полученных вариантов букв далее направляют на анализ в лингвистические модели 5, в результате работы которых получают варианты возможных слов 6. Состав лингвистических моделей 4 может включать кроме моделей разных языков также и другие модели, например числовые или компьютерной адресации.

После модельной обработки варианты слов 6 вместе с коэффициентами соответствия каждой модели 7 и дополнительной информацией в виде комплексной оценки каждого слова анализируют в модуле сравнения и выбора 8.

После анализа всей информации принимают решение 9 о языковой принадлежности слова.

Реферат патента 2005 года СПОСОБ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ЯЗЫКА РАСПОЗНАВАЕМОГО ТЕКСТА ПРИ МНОГОЯЗЫЧНОМ РАСПОЗНАВАНИИ

Изобретение относится к области оптического распознавания символов, а именно к способам распознавания текстовых документов, содержащих фрагменты, написанные на разных языках, из растрового изображения. Его применение позволяет получить технический результат в виде повышения качества распознавания языковой принадлежности текста, большая чувствительность к ошибкам, увеличение быстродействия. Этот результат достигается благодаря тому, что способ включает в себя, в частности, следующие этапы: формирование, по крайней мере, одной гипотезы о языковой принадлежности группы символов как слова, принятие или отклонение гипотезы о языковой принадлежности группы символов как слова, причем этап формирования гипотезы о языковой принадлежности группы символов как слова в свою очередь состоит, по крайней мере, из следующих действий: выбора перечня используемых лингвистических моделей, модельной оценки слова. 11 з.п. ф-лы, 1 ил.

Формула изобретения RU 2 251 737 C2

1. Способ автоматического распознавания текста, содержащего фрагменты, написанные на нескольких языках по информации растрового изображения, состоящий из следующих этапов: разбиение информации растрового изображения на множество фрагментов, изображающих символы текста, распознавание отдельных символов текста, объединение распознанных символов текста, в группы, предположительно составляющие слова, формирование, по крайней мере, одной гипотезы о языковой принадлежности группы символов как слова, принятие или отклонение гипотезы о языковой принадлежности группы символов как слова, причем этап формирования гипотезы о языковой принадлежности группы символов как слова, в свою очередь, состоит, по крайней мере, из следующих действий: выбор перечня используемых лингвистических моделей, модельная оценка слова.2. Способ по п.1, в котором этап распознавания символов текста по фрагментам выполняют с помощью классификатора, содержащего признаки символов двух или более языков.3. Способ по п.1, в котором этап принятия или отклонения гипотезы о языковой принадлежности группы символов как слова дополнительно включает выбор перечня для окончательной проверки языковой принадлежности слова, оценку слова на соответствие выбранным языкам.4. Способ по п.3, в котором перечень языков для проверки языковой принадлежности текста выбирают автоматически.5. Способ по п.3, в котором перечень языков для проверки языковой принадлежности текста выбирают вручную.6. Способ по п.1, в котором этап принятия или отклонения гипотезы о языковой принадлежности группы символов как слова дополнительно включает вычисление комплексной оценки слова, включающей, по крайней мере, оценку качества распознавания символов, словарную оценку как часть модельной оценки слова.7. Способ по п.6, в котором комплексная оценка дополнительно включает специальный показатель, характеризующий согласованность символов и/или слов в тексте.8. Способ по п.7, отличающийся тем, что специальный показатель включает геометрическое согласование символов между собой в пределах слова.9. Способ по п.7, отличающийся тем, что специальный показатель включает геометрическую согласованность символов между собой в пределах строки.10. Способ по п.7, отличающийся тем, что специальный показатель включает языковую согласованность слова с соседними словами.11. Способ по п.7, отличающийся тем, что специальный показатель включает оценку правильности восстановления информации символов по растровому изображению при наличии помех.12. Способ по п.1, отличающийся тем, что объединение распознанных символов текста в группы, предположительно составляющие слова, выполняют с помощью моделей.

Документы, цитированные в отчете о поиске Патент 2005 года RU2251737C2

СПОСОБ АДАПТИВНОГО РАСПОЗНАВАНИЯ ИНФОРМАЦИОННЫХ ОБРАЗОВ И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ	1999	Яхно В.Г. Хилько А.И. Тельных А.А. Нуйдель И.В. Бондаренко Б.Н. Сборщиков В.А.	RU2160467C1
US 5875256 A, 23.02.1999
Топчак-трактор для канатной вспашки	1923	Берман С.Л.	SU2002A1
Емкостный первичный преобразователь влажности сыпучих материалов	1978	Гатих Михаил Александрович Лис Леонид Сергеевич Певзнер Михаил Леонидович	SU702289A1
Походная разборная печь для варки пищи и печения хлеба	1920	Богач Б.И.	SU11A1

RU 2 251 737 C2

Авторы

Анисимович К.В.

Терещенко В.В.

Рыбкин В.Ю.

Даты

2005-05-10—Публикация

2002-10-18—Подача

название	год	авторы	номер документа
ВЫЯВЛЕНИЕ КИТАЙСКОЙ, ЯПОНСКОЙ И КОРЕЙСКОЙ ПИСЬМЕННОСТИ	2013	Атрощенко Михаил Юрьевич Дерягин Дмитрий Георгиевич Чулинин Юрий Георгиевич	RU2613847C2
СПОСОБ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ЯЗЫКА ИЛИ ЯЗЫКОВОЙ ГРУППЫ ТЕКСТА	2015	Калегин Сергей Николаевич	RU2607989C1
РАСПОЗНАВАНИЕ РУКОПИСНОГО ТЕКСТА ПОСРЕДСТВОМ НЕЙРОННЫХ СЕТЕЙ	2020	Упшинский Андрей Леонидович	RU2757713C1
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ИЗ ГРАФИЧЕСКОГО ФАЙЛА С ИСПОЛЬЗОВАНИЕМ СЛОВАРЕЙ И ДОПОЛНИТЕЛЬНЫХ ДАННЫХ	2005	Анисимович Константин Владимирович Рыбкин Владимир Юрьевич Шамис Александр Львович	RU2295154C1
Построение корпуса сравнимых документов на основе универсальной меры похожести	2014	Богданова Дарья Николаевна	RU2607975C2
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ	2013	Молчанов Артем Николаевич Скурнович Алексей Валентинович Стельмах Эдуард Петрович Молчанов Илья Николаевич	RU2550543C1
СПОСОБ УПОРЯДОЧЕНИЯ ДАННЫХ, ПРЕДСТАВЛЕННЫХ В ТЕКСТОВЫХ ИНФОРМАЦИОННЫХ БЛОКАХ ДАННЫХ	2000	Припачкин Ю.И. Сменцарев Г.В.	RU2210809C2
СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ НА ОСНОВЕ ДВУХУРОВНЕВОГО МОРФОФОНЕМНОГО ПРЕФИКСНОГО ГРАФА	2015	Ронжин Андрей Леонидович Карпов Алексей Анатольевич	RU2597498C1
Автоматическое извлечение именованных сущностей из текста	2014	Нехай Илья Владимирович	RU2665239C2
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ИЗ ВЕКТОРНО-РАСТРОВОГО ИЗОБРАЖЕНИЯ	2005	Дерягин Дмитрий Георгиевич Сапроненко Вячеслав Михайлович	RU2309456C2