СПОСОБ ОРИЕНТИРОВАННОГО НАХОЖДЕНИЯ ОБЛАСТЕЙ В ИСХОДНОМ МАССИВЕ ДАННЫХ И ПОСЛЕДОВАТЕЛЬНОГО АКТИВИРОВАНИЯ И ОБРАБОТКИ В НИХ ПРЕОБРАЗУЕМЫХ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ Российский патент 2001 года по МПК G06F17/00 G06F17/30 

Описание патента на изобретение RU2166206C2

Изобретение относится к области электроники и может быть применено, например, в качестве способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов.

Известен способ ориентированного нахождения совокупностей компьютерных кодов в исходном массиве данных и запрограммированной обработки в них преобразуемых компьютерных кодов [Patent USA N 5153927: Character reading system and method., МПК Oct. 6, 1992.].

Известен также способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, включающий производимое с помощью компьютера нахождение, активирование, обработку преобразуемых компьютерных кодов и привлечение для этого вспомогательных массивов данных, используемых для преобразования соответствующих кодам фрагментов изображения [Руководство пользователя Fine Reader 3.0 © Bit Software, Inc., 1993-97. Казанский производственный комбинат программных средств. Заказ Т] - прототип.

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе высокие значения достигаемых погрешностей преобразования. Погрешность преобразования в основном связана с качеством исходных графических изображений, которое определяется, в частности, тем, что предъявляют для распознавания, например, изготовленное на ксерокопировальном аппарате изображение, факсограмму, машинописный или рукописный текст.

Решаемой изобретением задачей является совершенствование способов использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им оригиналов с достижением технического результата в виде снижения погрешности ранжированного соотнесения.

Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений, символов и/или терминов.

Оригинал - преобразуемая информация, материализованная или предназначенная для материализации преимущественно в виде совокупности компьютерных кодов, соответствующих исходному объекту, например распознаваемому фрагменту изображения.

Компьютерный код (например, символ) - компьютерное представление некоторого фрагмента информации (в частности, символьной, графической).

Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.

Процесс верификации - производимое человеком и/или заменяющим его устройством, и/или компьютерной программой сличение (определение адекватности) компьютерных кодов (символов) с графическим изображением, введенным в компьютер.

Допустимое множество смысловых единиц включает в себя всю совокупность вероятных для распознавания наборов смысловых единиц, представляющих собой, например фрагменты изображений или символы.

Смысловая единица - это ориентированный на какое-либо практическое использование образ (фрагмент информации), например буква, символ, графический элемент, логическая операция и др. или совокупность соответствующих ему компьютерных кодов.

Исходный массив данных - произвольным образом отобранная совокупность смысловых единиц из допустимого их множества.

Ориентированная на нахождение область в исходном массиве данных - это логически завершенная совокупность смысловых единиц, предназначенная для заданного отбора в целях их последующего преобразования и обработки. Ориентир определяет местоположение какой-либо области в исходном массиве данных. Например для множества символов компьютерных кодов, представляющих изображение страницы с текстом, ориентиром может быть расстояние от левого верхнего угла текста.

Эталонная совокупность областей - это предварительно сформированная совокупность областей для преобразования и последующего использования результатов, также для целей контроля и сопоставления с исходным массивом данных.

Ранжированное соотнесение областей в их отобранной совокупности по отношению к эталонной совокупности областей - это ранжированное по заданным критериям (в зависимости, например, от их очередности и значимости) объединение областей в группы для их последующего преобразования и обработки, а также объединение охватываемых ими компьютерных кодов, при этом уже соотнесенные области могут быть использованы для соотнесения остальных областей.

Не соотнесенные области - те, для которых не найдена область из их эталонной совокупности.

Погрешность ранжированного соотнесения ε1 - это отношение количества не соотнесенных областей к общему количеству отобранных областей.

Вспомогательный массив данных - это произвольным образом сформированная совокупность компьютерных кодов смысловых единиц, охватываемых, в частности, допустимым множеством смысловых единиц.

Дополнительный массив динамических растровых эталонов - это совокупность элементов смысловых единиц, формируемая для уменьшения погрешностей в процессе преобразования.

В качестве кратких сведений, раскрывающих сущность изобретения следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, состоящего в том, что находят n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах
1 ≤ n1 ≤ 104,
из общего количества найденных областей выбирают n2 областей для одновременного или последовательного активирования и обработки содержащихся в них фрагментов изображений, причем n2 выбирают в пределах.

1 ≤ (αn1+ n2)/n1≤ 2,
где α - экспериментальный коэффициент, выбираемый в пределах 0,4 ≤ α ≤ 2,7 в зависимости от количества и характера комбинированного сочетания отбираемых областей.

Из n2 отобранных областей ранжированием по заданным критериям выделяют n3 областей, причем n3 выбирают в пределах
1 ≤ ( βn2 + n3)/n2 ≤ 2,
где β - экспериментальный коэффициент, выбираемый в зависимости от размера и вида фрагментов изображений в пределах, 0,3 ≤ β ≤ 1,4.

При этом ранжирование в зависимости от задаваемой погрешности производят в n4 этапов в пределах
1 ≤ ( γn3 + n4)/n3 ≤ 2,
где γ - экспериментальный коэффициент, выбираемый в зависимости от допустимого на операцию ранжирования промежутка времени, в пределах 0,6 ≤ γ ≤ 1,5, затем производят обработку содержащихся в выделенных областях фрагментов изображений в компьютерные коды.

При изложении сведений, подтверждающих возможность осуществления изобретения целесообразно более детально описать предложенный способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, состоящий в том, что находят n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах
1 ≤ n1 ≤ 104.

В каждую из областей могут быть включены совокупности смысловых единиц или соответствующих им компьютерных кодов, объединенные по какому-либо взаимосвязывающему их признаку, например фамилии, профессии, должности, условия труда и т.п. Критерии задаваемого отбора областей предопределяет, в частности, необходимость обработки областей, задаваемых в соответствии с указанными признаками. Из общего количества найденных областей выбирают n2 областей для одновременного или последовательного активирования и обработки содержащихся в них фрагментов изображений, причем n2 выбирают в пределах
1 ≤ ( αn1 + n2)/n1 ≤ 2,
где α - экспериментальный коэффициент, выбираемый в пределах 0,4 ≤ α ≤ 2,7 в зависимости от количества и характера комбинированного сочетания отбираемых областей. Это целесообразно, например, для случаев, когда нет необходимости преобразовывать оригинал целиком, а необходимо преобразовывать только отдельные области оригинала.

Из n2 отобранных областей ранжированием по заданным критериям в зависимости, например, от их очередности и значимости выделяют n3 областей, причем n3 выбирают в пределах
1 ≤ ( βn2 + n3)/n2≤ 2,
где β - экспериментальный коэффициент, выбираемый в зависимости от размера и вида фрагментов изображений в пределах, 0,3 ≤ β ≤ 1,4. Это делают, например, для того чтобы выделить для обработки области, содержащие компьютерные коды, соответствующие однородным смысловым единицам (словам, аналитическим соотношениям, графическим элемента и т.п.).

При этом ранжирование в зависимости от задаваемой погрешности производят в n4 этапов в пределах
1 ≤ ( γn3 + n4)/n3 ≤ 2,
где γ - экспериментальный коэффициент, выбираемый в зависимости от допустимого на операцию ранжирования промежутка времени, в пределах 0,6 ≤ γ ≤ 1,5.

Затем, при необходимости, производят обработку и верификацию преобразованных компьютерных кодов, после чего их размещают в области, соответствующие соотнесенным им областям в их эталонной совокупности. В ряде практических случаев полезным является привлечение вспомогательных массивов данных и/или построение дополнительных массивов динамических растровых эталонов, что осуществляют в соответствии с предназначенными для этого способами. На практике возможно использование и отдельных логически завершенных совокупностей операций предложенного способа. Если в результате выделения в соответствии с приведенными аналитическими соотношениями необходимых величин получают дробные, отрицательные значения и какие-либо другие значения, некорректные исходя из условий возможности их дальнейшего использования, то их исключают из рассмотрения и/или автоматически удаляют.

Примером практического применения предложенного способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, может быть его использование для обработки, например, деклараций для налоговой инспекции. В этих декларациях для преобразования выделяют области, отличающие одну декларацию от другой.

В частности, это могут быть области, содержащие фамилии, имена, отчества, должности, ряд областей, содержащих различные статьи доходов и их суммы. В декларациях ориентированно находят, например, около 100 областей, предназначенных для заданных видов преобразования (распознавание, верификация, контроль и др.). Из общего количества найденных областей выбирают около 50 областей содержащих, например, компьютерные коды, соответствующие текстовой и цифровой информации. Из этого количества отобранных областей, выделяют около 30 областей посредством ранжированного соотнесения областей в их ранее отобранной совокупности по отношению к эталонному компьютерному шаблону образца налоговой декларации в зависимости, например, от их очередности и значимости (фамилии, имена, отчества, должности, области, содержащие различные статьи доходов и их суммы). При этом ранжированное соотнесение производят, например, в два этапа, затем, при необходимости, производят обработку и верификацию преобразованных компьютерных кодов, после чего их экспортируют в поля базы данных, соответствующие соотнесенным им областям в эталонном образце налоговой декларации.

В качестве дополнительного примера реализации способа может быть использован пример сканирования платежного поручения при финансовых платежах через банк. В соответствии с последовательностью операций заявленной формулы изобретения посредством подпрограммы анализа изображений выбирают n1 областей, например n1 = 10, содержащих необходимую для использования графическую информацию в изображении платежного поручения. Подпрограммой предварительного распознавания выбирают n2 областей, содержащих текст и цифры, например n2= 5. Далее с помощью программы анализа производят идентификацию каждой из областей n2 на предмет содержания необходимой информации - сумма, номер счета и т.п. Эта программа использует в своей работе при анализе каждого элемента результаты анализа других. Например, если найдена в платежном поручении сумма прописью, намного легче найти сумму цифрой. Поскольку при первом проходе изображения могут допускаться ошибки, можно (как следует из формулы изобретения) делать, например, порядка десятка проходов, используя в частности, для анализа первых цифр данные анализа последних цифр и т.п.

Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их не очевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию промышленная применимость предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата.

Кроме указанного выше технического результата, практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами.

Похожие патенты RU2166206C2

название год авторы номер документа
СПОСОБ ИСПОЛЬЗОВАНИЯ ВСПОМОГАТЕЛЬНЫХ МАССИВОВ ДАННЫХ В ПРОЦЕССЕ ПРЕОБРАЗОВАНИЯ И/ИЛИ ВЕРИФИКАЦИИ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ, И СООТВЕТСТВУЮЩИХ ИМ ФРАГМЕНТОВ ИЗОБРАЖЕНИЯ 1999
  • Анисимович К.В.
  • Терещенко В.В.
  • Ян Д.Е.
RU2166207C2
СПОСОБ ВЗАИМОСВЯЗАННОГО АКТИВИРОВАНИЯ КОМПЬЮТЕРНЫХ КОДОВ В ВИДЕ СИМВОЛОВ И СООТВЕТСТВУЮЩИХ ИМ ФРАГМЕНТОВ ИЗОБРАЖЕНИЯ 1999
  • Анисимович К.В.
  • Терещенко В.В.
  • Ян Д.Е.
RU2165641C2
ГРУППОВОЙ СПОСОБ АБИ (ABBYY) ВЕРИФИКАЦИИ КОМПЬЮТЕРНЫХ КОДОВ С СООТВЕТСТВУЮЩИМИ ИМ ОРИГИНАЛАМИ 1998
  • Попов С.Г.
  • Терещенко В.В.
  • Ян Д.Е.
RU2145115C1
СПОСОБ ПОСТРОЕНИЯ ДИНАМИЧЕСКИХ РАСТРОВЫХ ЭТАЛОНОВ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ, В ПРОЦЕССЕ РАСПОЗНАВАНИЯ СООТВЕТСТВУЮЩИХ ИМ ФРАГМЕНТОВ ИЗОБРАЖЕНИЯ 1999
  • Анисимович К.В.
  • Терещенко В.В.
  • Ян Д.Е.
RU2166209C2
СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ГЕОИНФОРМАЦИОННЫХ СИСТЕМ (ГИС), СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ И СПОСОБ ПОИСКА ПО СФОРМИРОВАННОЙ ЭТИМ СПОСОБОМ БАЗЕ ДАННЫХ 2017
  • Сысоев Александр Вадимович
RU2669143C1
ОПТИЧЕСКИЙ ЭЛЕМЕНТ ДЛЯ ТРАНСФОРМАЦИИ ПОТОКА СВЕТОВОГО ИЗЛУЧЕНИЯ И ОПТИЧЕСКИЙ ПРЕОБРАЗОВАТЕЛЬ НА ЕГО ОСНОВЕ (ВАРИАНТЫ) 1999
  • Ашкиназий Я.М.
  • Чеглаков А.В.
  • Чепурной А.И.
  • Щетников А.А.
  • Зензинов А.Б.
  • Федоров Е.Н.
RU2159947C1
ДЕКОРАТИВНОЕ ПАННО 1996
  • Абдеев Р.А.
  • Линник Л.Н.
RU2108922C1
СПОСОБ ОРГАНИЗАЦИИ АРИФМЕТИЧЕСКОГО УСКОРИТЕЛЯ ДЛЯ РЕШЕНИЯ БОЛЬШИХ СИСТЕМ ЛИНЕЙНЫХ УРАВНЕНИЙ 2013
  • Самохин Александр Борисович
  • Тыртышников Евгений Евгеньевич
  • Михеев Олег Валерьевич
  • Габусу Паулина Айкинсовна
RU2547618C2
СПОСОБ РАСПРОСТРАНЕНИЯ ИНФОРМАЦИИ 1997
  • Трушко Павел Евстафиевич
RU2101188C1
Защитное устройство на основе дифракционных структур нулевого порядка 2022
  • Абрамович Георгий Леонидович
  • Акименко Андрей Петрович
  • Раздобарин Александр Викторович
  • Смирнов Леонид Игоревич
RU2801793C1

Реферат патента 2001 года СПОСОБ ОРИЕНТИРОВАННОГО НАХОЖДЕНИЯ ОБЛАСТЕЙ В ИСХОДНОМ МАССИВЕ ДАННЫХ И ПОСЛЕДОВАТЕЛЬНОГО АКТИВИРОВАНИЯ И ОБРАБОТКИ В НИХ ПРЕОБРАЗУЕМЫХ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ

Изобретение относится к электронике и может быть использовано, например, в качестве способа ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов. Техническим результатом является совершенствование способов использования вспомогательных массивов данных в процессе преобразования и/или верификации компьютерных кодов и соответствующих им оригиналов с достижением технического результата в виде снижения погрешности ранжированного соотношения. Способ заключается в том, что ориентированно находят n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах 1≤n1≤104. Из общего количества найденных областей выбирают n2 областей в пределах 1≤(αn1+n2)/n1≤2 для одновременного, и/или последовательного, и/или произвольного активирования и обработки в них преобразуемых компьютерных кодов. Из n2 отобранных областей выделяют n3 областей в пределах 1≤(βn2+n3)/n2≤2 посредством ранжированного соотнесения областей в их отобранной совокупности n2 по отношению к эталонной совокупности областей в зависимости, например, от их очередности и значимости. При этом ранжированное соотнесение производят в n4 этапов в пределах 1≤(γn3+n4)/ n3≤2 в зависимости от задаваемой погрешности их ранжированного соотнесения, где α, β и γ - экспериментальные коэффициенты, выбираемые в зависимости от особенностей использования способа. Затем, при необходимости, производят обработку и верификацию преобразованных компьютерных кодов, после чего их размещают в области, соответствующие соотнесенным им областям в их эталонной совокупности.

Формула изобретения RU 2 166 206 C2

Способ ориентированного нахождения областей в исходном массиве данных и последовательного активирования и обработки в них преобразуемых компьютерных кодов, выполненных в виде символов, состоящий в том, что находится n1 областей, предназначенных для заданного отбора в исходном массиве данных, где n1 выбирают в пределах
1 ≤ n1 ≤ 104,
из общего количества найденных областей выбирают n2 областей для одновременного или последовательного активирования и обработки содержащихся в них фрагментов изображений, причем n2 выбирают в пределах
1 ≤(α n1 + n2)/ n1 ≤ 2,
где α - экспериментальный коэффициент, выбираемый в пределах 0,4 ≤ α ≤ 2,7 в зависимости от количества и характера комбинированного сочетания отбираемых областей,
из n2 отобранных областей ранжированием по заданным критериям выделяют n3 областей, причем n3 выбирают в пределах
1 ≤(β n2 + n3)/ n2 ≤ 2,
где β - экспериментальный коэффициент, выбираемый в зависимости от размера и вида фрагментов изображений в пределах 0,3 ≤ β ≤ 1,4,
при этом ранжирование в зависимости от задаваемой погрешности производят в n4 этапов в пределах
1 ≤(γ n3 + n4)/ n3 ≤ 2,
где γ - экспериментальный коэффициент, выбираемый в зависимости от допустимого на операцию ранжирования промежутка времени, в пределах 0,6 ≤ γ ≤ 1,5,
затем производят обработку содержащихся в выделенных областях фрагментов изображений в компьютерные коды.

Документы, цитированные в отчете о поиске Патент 2001 года RU2166206C2

Дорожная спиртовая кухня 1918
  • Кузнецов В.Я.
SU98A1
СПОСОБ ИММУННОГИСТОХИМИЧЕСКОЙ ДЕТЕКЦИИ ПРОТЕИНОВ НА ГИСТОЛОГИЧЕСКИХ СРЕЗАХ 1994
  • Козлов Д.В.
  • Жабин С.Г.
RU2098825C1
EP 0797162 A2, 24.09.1997
Приспособление в пере для письма с целью увеличения на нем запаса чернил и уменьшения скорости их высыхания 1917
  • Латышев И.И.
SU96A1
СИСТЕМА УСТРОЙСТВ ДЛЯ ИНТЕРПРЕТАЦИИ ПОНЯТИЙ ОБРАЗНЫМИ ПРЕДСТАВЛЕНИЯМИ 1995
  • Сивков Олег Яковлевич
RU2112273C1

RU 2 166 206 C2

Авторы

Анисимович К.В.

Терещенко В.В.

Ян Д.Е.

Харченко Н.В.

Даты

2001-04-27Публикация

1999-04-20Подача