СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ИЗ ВЕКТОРНО-РАСТРОВОГО ИЗОБРАЖЕНИЯ Российский патент 2007 года по МПК G06K9/36 

Описание патента на изобретение RU2309456C2

Предлагаемое техническое решение относится к распознаванию образов и, в частности, к предварительной обработке представления документа в электронном виде, выполняемой перед операциями по распознаванию текста (или вместо распознавания).

Предлагаемое техническое решение позволяет выявить информацию о содержании и форматировании из векторно-растрового изображения документа в электронном виде, например, файла в формате PDF достаточную, чтобы затем восстановить документ в исходном или близком к исходному виде в любом известном формате, допускающем редактирование.

Из уровня техники известен способ извлечения текстовой информации из электронного файла в векторно-растровом формате. Этот способ использует компания-производитель инструментария для получения документов в векторно-растровом формате (в формате PDF). "Acrobat and PDF Library API Reference", January 7, 2005, Adobe Solutions Network, 3603 р.

Недостатком известного способа является его приспособленность для извлечения только текстовой информации без сохранения информации о форматировании (о внешнем оформлении документа).

Описанный способ выбран как прототип.

Технический результат состоит в расширении возможностей по распознаванию документа из электронного файла в векторно-растровом формате, повышении надежности выявления текстовых, растровых и векторных объектов, получении (извлечении) информации о форматировании документа (форматной информации), ускорении процесса обработки.

Известный способ не позволяет достичь заявленного технического результата.

Заявленный технический результат достигают последовательным выполнением разбивки изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, обработки текстовых объектов, обработки растровых объектов, обработки векторных объектов, удаления избыточной и излишней информации, дополнительной обработкой объектов, не относящихся к текстовым, растровым, векторным, как растровые, дополнительного анализа каждого объекта с учетом всей имеющейся информации по результатам обработки других объектов.

Ускорение обработки достигают в том числе благодаря исключению или сокращению части обычно выполняемых операций.

Например, во многих случаях частично или полностью отпадает необходимость распознавать растровый текст.

Сущность способа предварительной обработки текстовой информации по информации векторно-растрового изображения в электронном виде состоит в следующем.

В порядке предварительной (перед распознаванием символов) обработки выполняют следующие операции, используя атрибуты форматирования файла, имеющиеся в файле векторно-растрового изображения.

Выполняют разбивку изображения до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Для этого разбивают изображение на области, предположительно содержащие текст, и затем анализируют соседние области на возможность объединения в более крупные.

Обрабатывают текстовые объекты. Обработка текстовых объектов включает, по крайней мере, разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов, анализ и составление (объединение, сборка) групп символов в строки. Разбивка на отдельные символы и группы символов включает, по крайней мере, преобразование абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками.

Анализ и составление (сборка) групп символов в строки включает, по крайней мере, следующие действия:

а) определение ориентации текста,

б) выявление текста, написанного в положении верхнего индекса,

в) выявление текста, написанного в положении нижнего индекса,

г) выявление текста, написанного в виде буквицы.

После сборки строк делят строку на слова, по пробелам там, где они есть, и анализируя интервалы между символами там, где пробелов нет.

Обрабатывают векторные объекты. Обработка векторных объектов включает, по крайней мере, идентификацию (выявление) разделителей, фона, подложек в блоке.

Обрабатывают растровые объекты. Обработка растровых объектов включает, по крайней мере, анализ на наличие изображения текста в нетекстовых объектах, анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

Удаляют избыточную и излишнюю информацию. К удаляемой избыточной и излишней информации относят, по крайней мере, информацию для оттенения символов и информацию об излишних атрибутах, некоторую другую, в зависимости от особенностей документа.

Объекты, не относящиеся к текстовым, растровым, векторным, обрабатывают как растровые.

Каждый объект повторно дополнительно анализируют с учетом всех имеющихся результатов обработки других объектов. Если по полученным результатам первичной обработки объекта появилась информация, способная повлиять на другие объекты, проводят повторный анализ этих других объектов.

После разбиения на строки и слова проводят анализ корректности кодировки символов, при необходимости исправляют. Для определения корректности кодировки анализируют текст на принадлежность букв к алфавиту и слов текста к словарю, с учетом заданного языка.

Если не удается получить текст другими известными способами, текстовый блок направляют на распознавание.

Похожие патенты RU2309456C2

название год авторы номер документа
СПОСОБ РАСПОЗНАВАНИЯ КОНТЕНТНОГО СОДЕРЖАНИЯ СООБЩЕНИЙ ГРАФИЧЕСКИХ ФОРМАТОВ 2011
  • Замарин Александр Иванович
  • Сазонов Константин Викторович
RU2479028C2
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ 2013
  • Молчанов Артем Николаевич
  • Скурнович Алексей Валентинович
  • Стельмах Эдуард Петрович
  • Молчанов Илья Николаевич
RU2550543C1
РЕДАКТИРОВАНИЕ СОДЕРЖИМОГО ЭЛЕКТРОННОГО ДОКУМЕНТА 2014
  • Корнеев Иван Юрьевич
RU2656581C2
УСТРОЙСТВА И СПОСОБЫ, КОТОРЫЕ ПОРОЖДАЮТ ПАРАМЕТРИЗОВАННЫЕ СИМВОЛЫ ДЛЯ ПРЕОБРАЗОВАНИЯ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ В ЭЛЕКТРОННЫЕ ДОКУМЕНТЫ 2013
  • Чулинин Юрий Георгиевич
RU2625020C1
УСТРОЙСТВО И СПОСОБ ПОИСКА РАЗЛИЧИЙ В ДОКУМЕНТАХ 2013
  • Панферов Василий Владимирович
  • Исаев Андрей Анатольевич
  • Боброва Екатерина Юрьевна
  • Жуковская Ольга Анатольевна
RU2571378C2
УСТРОЙСТВА И СПОСОБЫ, КОТОРЫЕ СТРОЯТ ИЕРАРХИЧЕСКИ УПОРЯДОЧЕННУЮ СТРУКТУРУ ДАННЫХ, СОДЕРЖАЩУЮ НЕПАРАМЕТРИЗОВАННЫЕ СИМВОЛЫ, ДЛЯ ПРЕОБРАЗОВАНИЯ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ В ЭЛЕКТРОННЫЕ ДОКУМЕНТЫ 2013
  • Чулинин Юрий Георгиевич
RU2625533C1
УСТРОЙСТВА И СПОСОБЫ, КОТОРЫЕ ИСПОЛЬЗУЮТ ИЕРАРХИЧЕСКИ УПОРЯДОЧЕННУЮ СТРУКТУРУ ДАННЫХ, СОДЕРЖАЩУЮ НЕПАРАМЕТРИЗОВАННЫЕ СИМВОЛЫ, ДЛЯ ПРЕОБРАЗОВАНИЯ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ В ЭЛЕКТРОННЫЕ ДОКУМЕНТЫ 2013
  • Чулинин Юрий Георгиевич
RU2643465C2
СПОСОБЫ И УСТРОЙСТВА, КОТОРЫЕ ПРЕОБРАЗУЮТ ИЗОБРАЖЕНИЯ ДОКУМЕНТОВ В ЭЛЕКТРОННЫЕ ДОКУМЕНТЫ С ИСПОЛЬЗОВАНИЕМ TRIE-СТРУКТУРЫ ДАННЫХ, СОДЕРЖАЩЕЙ НЕПАРАМЕТРИЗОВАННЫЕ СИМВОЛЫ ДЛЯ ОПРЕДЕЛЕНИЯ СЛОВ И МОРФЕМ НА ИЗОБРАЖЕНИИ ДОКУМЕНТА 2013
  • Чулинин Юрий Георгиевич
RU2631168C2
СПОСОБ РАСПОЗНАВАНИЯ КОНТЕНТА СЖАТЫХ НЕПОДВИЖНЫХ ГРАФИЧЕСКИХ СООБЩЕНИЙ В ФОРМАТЕ JPEG 2018
  • Иванов Владимир Алексеевич
  • Скурнович Алексей Валентинович
  • Ревякин Андрей Михайлович
RU2680358C1
СПОСОБ АВТОМАТИЧЕСКОГО ОПРЕДЕЛЕНИЯ ЯЗЫКА РАСПОЗНАВАЕМОГО ТЕКСТА ПРИ МНОГОЯЗЫЧНОМ РАСПОЗНАВАНИИ 2002
  • Анисимович К.В.
  • Терещенко В.В.
  • Рыбкин В.Ю.
RU2251737C2

Реферат патента 2007 года СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ИЗ ВЕКТОРНО-РАСТРОВОГО ИЗОБРАЖЕНИЯ

Изобретение относится к области техники предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста. Технический результат изобретения заключается в повышении надежности выявления текстовых, растровых и векторных объектов, получении информации о форматировании документа и ускорении процесса обработки. Достигается технический результат за счет того, что обработка текстовых объектов включает разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неиндицируемых символов и анализ и объединение групп символов в слова, обработка векторных объектов включает выявление разделителей, фона, обработка растровых объектов включает анализ на наличие изображения текста в нетекстовых объектах, и/или анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта, причем дополнительно возможно проведение анализа корректности кодировки, и в случае необходимости исправление, для чего анализируют отдельные символы на принадлежность к заданному алфавиту, а слова текста - на принадлежность к заданному словарю. 2 з.п. ф-лы.

Формула изобретения RU 2 309 456 C2

1. Способ предварительной обработки векторно-растрового изображения графического файла, содержащего изображение текста, характеризующийся

наличием текстовых, и/или растровых, и/или векторных объектов,

разбиением изображения на области, предположительно содержащие абзацы, таблицы, строки текста, символы текста, нетекстовые объекты;

отличающийся тем, что выполняют следующие операции, используя атрибуты форматирования файла:

разбивку изображения выполняют до получения областей содержащих неразрывный логически связанный текст наибольшего размера,

обработку текстовых объектов,

обработку растровых объектов,

обработку векторных объектов,

удаление избыточной и излишней информации,

обработка объектов, не относящихся к текстовым, растровым, векторным, как растровых,

анализ каждого объекта с учетом всех имеющихся результатов обработки других объектов;

причем удаляемая избыточная и излишняя информация, включает, по крайней мере, следующие виды:

а) информация для оттенения символов,

б) лишние атрибуты;

причем получение областей содержащих неразрывный логически связанный текст наибольшего размера включает, по крайней мере, следующие этапы:

разбивку изображения на области, предположительно содержащие текст,

анализ соседних областей на возможность объединения в более крупную область;

причем обработка указанных текстовых объектов включает, по крайней мере, следующие этапы:

разбивку на отдельные символы и группы символов по предполагаемым местам размещения пробелов и/или других неиндицируемых символов,

анализ и объединение групп символов в слова;

причем обработка указанных векторных объектов включает, по крайней мере, выявление разделителей, фона;

причем обработка указанных растровых объектов включает, по крайней мере, следующие этапы:

анализ на наличие изображения текста в нетекстовых объектах, и/или

анализ на наличие векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.

2. Способ по п.1, отличающийся тем, что дополнительно включает анализ корректности кодировки символов, путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, и в случае необходимости исправление.3. Способ по п.1, отличающийся тем, что анализ и составление групп символов в слова, включает, по крайней мере, следующие действия:

а) определение ориентации текста,

б) выявление текста, написанного в положении верхнего индекса,

в) выявление текста, написанного в положении нижнего индекса,

г) выявление текста, написанного в виде буквицы.

Документы, цитированные в отчете о поиске Патент 2007 года RU2309456C2

СПОСОБ МНОГОЭТАПНОГО АНАЛИЗА ИНФОРМАЦИИ РАСТРОВОГО ИЗОБРАЖЕНИЯ 2002
  • Анисимович К.В.
  • Терещенко В.В.
  • Рыбкин В.Ю.
  • Внучков Д.Н.
RU2234734C1
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТА С ПРИМЕНЕНИЕМ НАСТРАИВАЕМОГО КЛАССИФИКАТОРА 2002
  • Анисимович К.В.
  • Терещенко В.В.
  • Рыбкин В.Ю.
RU2234126C2
УСТРОЙСТВО И СПОСОБ ЗАПИСИ 1997
  • Фораэус Кристер
  • Нильссон Ян
  • Седерлунд Патрик
RU2198428C2
US 6792143 B1, 14.09.2004
WO 2004079526 A2, 16.09.2004.

RU 2 309 456 C2

Авторы

Дерягин Дмитрий Георгиевич

Сапроненко Вячеслав Михайлович

Даты

2007-10-27Публикация

2005-12-08Подача