Показать метаданные Скрыть метаданные

(19)

(11)

2 145 115

(13)

(51)

МПК

G06K9/00(2000-01-01)

(21) (22)

Заявка

98114579/09, 1998-08-10

(24)

Дата начала отсчета патента

1998-08-10

(22)

дата подачи заявки

1998-08-10

(45)

опубликовано

2000-01-27

(72)

авторы

Попов С.Г.Терещенко В.В.Ян Д.Е.

(73)

патентообладатели

Закрытое Акционерное Общество Программное Обеспечение"

(56)

Документы, цитированные в отчете о поиске

Руководство пользователяBit Software, Inc- Казань: Казанский производственный комбинат программных средств, 1997US 5544257 A, 06.08.96US 5550931 A, 27.08.96

ГРУППОВОЙ СПОСОБ АБИ (ABBYY) ВЕРИФИКАЦИИ КОМПЬЮТЕРНЫХ КОДОВ С СООТВЕТСТВУЮЩИМИ ИМ ОРИГИНАЛАМИ Российский патент 2000 года по МПК G06K9/00

Описание патента на изобретение RU2145115C1

Изобретение относится к области электроники и может быть использовано, например, в качестве группового способа верификации компьютерных кодов с соответствующими им оригиналами.

Известен способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и сличение оператором соответствия компьютерных кодов с оригиналом.

Известен также способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом, - прототип.

Недостатком известных способов являются относительно низкие их функциональные и технические характеристики, в том числе низкие значения достигаемых скорости верификации ее усредненной точности.

Решаемой изобретением задачей является совершенствование способов верификации компьютерных кодов с соответствующими им оригиналами с достижением технического результата в виде повышения скорости верификации и ее усредненной точности. Скорость верификации определяется как количество верифицируемых символов в единицу времени.

Для удобства и однозначного понимания целесообразно привести расшифровки и определения используемых далее обозначений, символов и/или терминов.

Исходное графическое изображение на материальном носителе - подлежащее вводу в компьютер изображение с целью последующей компьютерной обработки или хранения в машиночитаемом виде.

Графическое изображение, введенное в компьютер, - компьютерное представление некоторого фрагмента графической информации.

Компьютерный код символа - компьютерное представление некоторого фрагмента символьной информации.

Компьютерные коды символов получают в процессе компьютерного распознавания графического изображения, введенного в компьютер, например, с помощью сканера, или его фрагментов.

Процесс верификации - производимое человеком и/или заменяющим его устройством, и/или компьютерной программой сличение (определение адекватности) компьютерных кодов символов с графическим изображением, введенным в компьютер.

Процесс распознавания - процесс обработки системой распознавания введенного в компьютер графического изображения некоторого символа, в результате чего система распознавания приписывает изображению компьютерный код этого символа.

Точность процесса распознавания - усредненный процент правильно распознанных символов по статистически представительному практически релевантному множеству текстов.

Правильно распознанные символы - символы, компьютерный код которых правильно определен системой распознавания.

Неправильно распознанные символы - символы, компьютерный код которых неправильно определен системой распознавания.

Выделенные символы - символы, выделенные в процессе фильтрации для последующей верификации. В идеале выделенные символы должны включать все неправильно распознанные символы.

Цена ошибки - параметр, адекватный величине убытка, причиненного попаданием неправильно распознанного символа в окончательный результат распознавания.

Обозначения:
N_исх - общее число символов в документе,
N_выд - число символов, выделенное алгоритмом фильтрации,
N_невыд - число символов, не выделенное алгоритмом фильтрации,
N_пр - число правильно распознанных символов,
N_непр - общее число неправильно распознанных символов,
N_выд.пр - число выделенных правильно распознанных символов,
N_{выд.непр.} - число выделенных неправильно распознанных символов,
N_{невыд.пр.} - число невыделенных правильно распознанных символов,
N_невыд _.непр - число невыделенных неправильно распознанных символов,
верхний индекс C (как в N^C) обозначает число символов, которые получили в процессе распознавания компьютерный код C,
A - точность распознавания данного документа,
A=N_пр/N_исх,
A_ср - усредненная точность распознавания данного документа:

где N - общее число документов в выборке, a i - номер документа в выборке,

где С - числовое значение компьютерного кода распознанного символа (порядковый номер), выбираемое из всего множества допустимых значений без исключений,
N_гр ^C - количество сгруппированных для верификации одинаковых компьютерных кодов,
N_экр - количество графических изображений выводимых на экран одновременно (из общего количества N_гр ^C).

В качестве кратких сведений, раскрывающих сущность изобретения, следует отметить, что достигаемый технический результат обеспечивают с помощью предложенного группового способа АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами, включающего преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом. Отличительные особенности заявленного способа заключаются в том, что в процессе фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа различными известными способами, сравнения этих результатов между собой и с результатом словарного контроля и выбирая их из исходной последовательности компьютерных кодов символов общим числом N_исх, в количестве N_выд = F - aN_невыд. _непр, где а - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах: 10^-12≤ α ≤ 10¹⁵, a F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах: 1 ≤F≤10¹⁶.

Затем после фильтрации группируют одинаково распознанные компьютерные коды общим числом N_выд таким образом, что в каждую группу включают N_выд ^C одинаковых компьютерных кодов символов, где C - числовое значение верифицируемого компьютерного кода, выбираемое из всего множества допустимых значений, выбирая значение N_выд ^C в пределах: 1≤(N_выд ^C + N_выд)/N_выд ≤2. При этом в каждую группу N_выд ^C включают правильно распознанные компьютерные коды символов в количестве N_выд_пр ^C и неправильно распознанные компьютерные коды символов в количестве N_выд_непр ^C, а соотношение между N_выд_пр ^C и N_выд_непр ^C выбирают в пределах: -0.5≤(N_выд_пр ^C + N_выд_непр ^C - bN_выд ^C)/N_выд_пр ^C ≤1.5, где b- экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах: 10^-9≤b≤1. Для верификации выбирают количество N_гр сгруппированных одинаковых компьютерных кодов в пределах N_гр= βγNСвыд

, где γ -экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных и/или вспомогательных и/или информационных кодов выбираемый в пределах 10^-5≤ α ≤ 10⁶, β - экспериментальный вероятностный коэффициент уверенности в достоверности распознавания, выбираемый на основании статистической обработки и результатов оценки качества исходных графических изображений на материальном носителе, в пределах 0,01 ≤ β ≤ 1.
Группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке либо в порядке убывания весовой W^C значимости группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа и др., исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах: 10^-8≤ W^C/N_выд ^C≤10¹⁶. Производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят N_экр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток Т_вер времени, который по отношению к N_экр выбирают в экспериментально найденных пределах: -20 ≤ log₂(αT_верN_экр) ≤ 37, где α - экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0.2c^-1≤ α ≤ 10c^-1.
При изложении сведений, подтверждающих возможность осуществления изобретения, целесообразно более детально описать предложенный групповой способ АБИ (ABBYY) верификации компьютерных кодов с соответствующими им оригиналами. При описании способа нецелесообразно детально останавливаться на известных из опубликованных данных особенностях выполнения его операций, в частности, преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом.

Детально целесообразно остановиться только на отличительных существенных особенностях осуществления операций предложенного способа, заключающихся в том, что в процессе фильтрации выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа различными известными способами, сравнения этих результатов между собой и с результатом словарного контроля и выбирая их из исходной последовательности компьютерных кодов символов общим числом N_исх, в количестве N_выд= F-αN_{невыд.непр},, где a - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах: 10¹² ≤ α ≤ 10¹⁵, a F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах: 1 ≤ F ≤10¹⁶. Обычно а выбирают в диапазоне 1 - 10⁵, a F - в диапазоне 10 ≤ F ≤ 10⁶.

В некоторых случаях, в частности, словарный контроль существенно повышает достоверность распознавания отдельных символов, так при этом даже полная невозможность распознания некоторых символов позволяет определить их значение исходя из смыслового содержания слова и месторасположения нераспознанных символов в слове. Если в результате выделения в соответствии с приведенными аналитическими соотношениями необходимых количеств компьютерных кодов получают дробные, отрицательные значения и какие-либо другие значения, некорректные исходя из условий возможности их дальнейшего использования, то их исключают из рассмотрения и/или автоматически удаляют.

Затем группируют после фильтрации одинаково распознанные компьютерные коды общим числом N_выд таким образом, что в каждую группу включают N_выд ^C одинаковых компьютерных кодов символов, где C - числовое значение верифицируемого компьютерного кода из всего множества допустимых значений, выбирая значение N_выд ^C в пределах: 1 ≤(N_выд ^C + N_выд)/N_выд ≤ 2. Определение числового значения C может быть произвольным или в результате, например, последовательно выбора из множества его допустимых значений. При этом в каждую группу N_выд ^C включают правильно распознанные компьютерные коды символов в количестве N_выд_пр ^C и неправильно распознанные компьютерные коды символов в количестве N_выд_непр ^C, а соотношение между N_выд_пр ^C и N_выд_непр ^C выбирают в пределах: -0.5≤ (N_выд_пр ^C + N_выд_непр ^C - bN_выд ^C)/N_выд_пр ^C≤1.5, где b - экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах: 10^-9≤b≤1. Для верификации выбирают количество N_гр сгруппированных одинаковых компьютерных кодов в пределах: N_гр= βγNCвыд

Группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке либо в порядке убывания весовой W^C значимости группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа и др., исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах: 10^-8≤W^C/N_выд ^C ≤10¹⁶. Производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят N_экр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток Т_вер времени, который по отношению к N_экр выбирают в экспериментально найденных пределах: -20 ≤ log₂(αT_верN_экр)≤ 37, где α - экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0.2c^-1≤ α ≤ 10^-1. Как следует из соотношения, размерность коэффициента α равна величине, обратной секунде.

Достигаемый технический результат, как показали данные экспериментов, может быть реализован только взаимосвязанной совокупностью всех существенных признаков заявленного объекта, отраженных в формуле изобретения. Указанные в ней отличия дают основание сделать вывод о новизне данного технического решения, а совокупность испрашиваемых притязаний в связи с их неочевидностью - о его изобретательском уровне, что доказывается также вышеприведенным их детальным описанием. Соответствие критерию "промышленная применимость" предложенного способа доказывается как его реализацией, так и отсутствием в заявленных притязаниях каких-либо практически трудно реализуемых в промышленных масштабах признаков. Нижние и верхние значения заявленных пределов были получены на основе статистической обработки результатов экспериментальных исследований, анализа и обобщения их и известных из опубликованных источников данных, а также с использованием изобретательской интуиции, исходя из условия достижения указанного технического результата.

Кроме указанного выше технического результата практическое осуществление заявленного объекта позволяет существенно расширить возможности его использования применительно, например, к различным документам, заполняемым рукописными символами.

Реферат патента 2000 года ГРУППОВОЙ СПОСОБ АБИ (ABBYY) ВЕРИФИКАЦИИ КОМПЬЮТЕРНЫХ КОДОВ С СООТВЕТСТВУЮЩИМИ ИМ ОРИГИНАЛАМИ

Изобретение относится к вычислительной технике. Его использование при верификации компьютерных кодов с соответствующими им оригиналами позволяет повысить скорость верификации и ее точность. Способ включает в себя преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документов и приведение в соответствие компьютерных кодов с оригиналом. Технический результат достигается благодаря тому, что выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа известными способами, сравнения этих результатов между собой и с результатом словарного контроля, причем верификацию осуществляют над параллельно выведенными на устройство отображения визуальной информации несколькими графическими изображениями. 1 з.п.ф-лы.

Формула изобретения RU 2 145 115 C1

1. Групповой способ верификации компьютерных кодов с соответствующими им оригиналами, включающий преобразование исходной символьной информации оригинала документа в совокупность адекватных ей компьютерных кодов в найденных и отобранных полях документа и приведение в соответствие компьютерных кодов с оригиналом, отличающийся тем, что выделяют компьютерные коды символов, определяя достоверность распознавания каждого символа на основе результатов распознавания изображения этого символа известными способами, сравнения этих результатов между собой и с результатом словарного контроля и, выбирая их из исходной последовательности компьютерных кодов общим числом N_исх, в количестве N_выд = F - aN_невыд _.непр, где a - экспериментальный коэффициент, выбираемый в зависимости от цены ошибки и усредненной точности системы распознавания в пределах 10^-12 ≤ a ≤ 10¹⁵, F - экспериментальный параметр, выбираемый в зависимости от точности системы распознавания и числа подлежащих распознаванию символов в документе в пределах 1 ≤ F ≤ 10¹⁶, N_невыд. _непр - число невыделенных неправильно распознанных символов, группируют одинаково распознанные компьютерные коды общим числом N_выд таким образом, что в каждую группу включают N_выд ^C одинаковых компьютерных кодов, где C - числовое значение верифицируемого компьютерного кода из всего множества допустимых значений, выбирая значение N_выд ^C в пределах 1 ≤ (N_выд ^C + N_выд)/N_выд ≤ 2, причем в каждую группу N_выд ^C включают правильно распознанные компьютерные коды символов в количестве N_выд.пр ^C и неправильно распознанные компьютерные коды в количестве N_{выд.непр} ^C, а соотношение между N_выд.пр ^C и N_{выд.непр} ^C выбирают в следующих пределах: 0,5 ≤ (N_выд.пр ^C + N_выд. _непр ^C - bN_выд)/N_выд.пр ^C ≤ 1,5, где b - экспериментальный коэффициент, выбираемый в зависимости от четкости и контрастности исходного графического изображения в пределах 10^-9 ≤ b ≤ 1, выбирая количество N_гр сгруппированных для верификации одинаковых компьютерных кодов в пределах N_гр = βγNCвыд

, где γ - экспериментальный коэффициент, в зависимости от количества группируемых выделенных компьютерных кодов и включаемых дополнительно эталонных, и/или вспомогательных, и/или информационных кодов, выбираемый в пределах 10^-5 ≤ γ ≤ 10⁶, β - экспериментальный вероятностный коэффициент уверенности в достоверности распознавания, выбираемый на основании статистической обработки и результатов оценки качества исходных графических изображений на материальном носителе, в пределах 0,01 ≤ β ≤ 1, группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором, например, в случайном порядке, производят верификацию, сличая, например, показанное на устройстве отображения визуальной информации изображение, введенное в компьютер, с изображением компьютерного кода символа, для чего одновременно в устройство отображения визуальной информации вводят N_экр разных графических изображений, предоставляя при этом на верификацию одного изображения промежуток T_вер времени, который по отношению к N_экр выбирают в экспериментально найденных пределах: -20 ≤ log₂(αT_верN_экр) ≤ 37, где α - экспериментальный коэффициент, выбираемый в зависимости от кинетических характеристик устройства ввода символьной информации в компьютер в пределах 0,2c^-1 ≤ α ≤ 10c^-1.
2. Способ по п.1, отличающийся тем, что группы одинаково распознанных компьютерных кодов выводят для их верификации специализированным устройством или оператором в порядке убывания весовой значимости W^С группы компьютерных кодов, которую определяют экспериментально на основе статистической обработки больших массивов информации в зависимости от алфавитного порядка, и/или размера группы компьютерных кодов, и/или степени важности данного компьютерного кода для содержания документа, исходя из практической значимости достоверности верификации компьютерных кодов, и выбирают в пределах 10^-8 ≤ W^С/N_выд ^C ≤ 10¹⁶.

Документы, цитированные в отчете о поиске Патент 2000 года RU2145115C1

Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п.	1921	Богач Б.И.	SU3A1
Руководство пользователя
Bit Software, Inc
- Казань: Казанский производственный комбинат программных средств, 1997
US 5544257 A, 06.08.96
US 5550931 A, 27.08.96
Рабочее колесо турбомашины	1978	Лагерев Валерий Васильевич Буглаев Владимир Тихонович Калентьев Владимир Иванович Рыженко Петр Петрович	SU779592A1
Бесколесный шариковый ход для железнодорожных вагонов	1917	Латышев И.И.	SU97A1
КОМПЬЮТЕРНОЕ УСТРОЙСТВО ДЛЯ ЧТЕНИЯ ПЛОСКОПЕЧАТНОГО ТЕКСТА	1996	Золотов С.А. Калинин Н.Н. Балахонцев А.Н.	RU2113726C1

RU 2 145 115 C1

Авторы

Попов С.Г.

Терещенко В.В.

Ян Д.Е.

Даты

2000-01-27—Публикация

1998-08-10—Подача

название	год	авторы	номер документа
СПОСОБ ИСПОЛЬЗОВАНИЯ ВСПОМОГАТЕЛЬНЫХ МАССИВОВ ДАННЫХ В ПРОЦЕССЕ ПРЕОБРАЗОВАНИЯ И/ИЛИ ВЕРИФИКАЦИИ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ, И СООТВЕТСТВУЮЩИХ ИМ ФРАГМЕНТОВ ИЗОБРАЖЕНИЯ	1999	Анисимович К.В. Терещенко В.В. Ян Д.Е.	RU2166207C2
СПОСОБ ВЗАИМОСВЯЗАННОГО АКТИВИРОВАНИЯ КОМПЬЮТЕРНЫХ КОДОВ В ВИДЕ СИМВОЛОВ И СООТВЕТСТВУЮЩИХ ИМ ФРАГМЕНТОВ ИЗОБРАЖЕНИЯ	1999	Анисимович К.В. Терещенко В.В. Ян Д.Е.	RU2165641C2
СПОСОБ ОРИЕНТИРОВАННОГО НАХОЖДЕНИЯ ОБЛАСТЕЙ В ИСХОДНОМ МАССИВЕ ДАННЫХ И ПОСЛЕДОВАТЕЛЬНОГО АКТИВИРОВАНИЯ И ОБРАБОТКИ В НИХ ПРЕОБРАЗУЕМЫХ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ	1999	Анисимович К.В. Терещенко В.В. Ян Д.Е. Харченко Н.В.	RU2166206C2
СПОСОБ ПОСТРОЕНИЯ ДИНАМИЧЕСКИХ РАСТРОВЫХ ЭТАЛОНОВ КОМПЬЮТЕРНЫХ КОДОВ, ВЫПОЛНЕННЫХ В ВИДЕ СИМВОЛОВ, В ПРОЦЕССЕ РАСПОЗНАВАНИЯ СООТВЕТСТВУЮЩИХ ИМ ФРАГМЕНТОВ ИЗОБРАЖЕНИЯ	1999	Анисимович К.В. Терещенко В.В. Ян Д.Е.	RU2166209C2
СПОСОБ ВЫЯВЛЕНИЯ СПАМА В РАСТРОВОМ ИЗОБРАЖЕНИИ	2011	Смирнов Евгений Петрович	RU2453919C1
СПОСОБ ФАКСИМИЛЬНОГО РАСПОЗНАВАНИЯ И ВОСПРОИЗВЕДЕНИЯ ТЕКСТА ПЕЧАТНОЙ ПРОДУКЦИИ	2003	Королев И.Ф. Курбатов В.С.	RU2260208C2
СПОСОБ ВЫЯВЛЕНИЯ НЕОБХОДИМОСТИ ОБУЧЕНИЯ ЭТАЛОНА ПРИ ВЕРИФИКАЦИИ РАСПОЗНАННОГО ТЕКСТА	2014	Кривошеев Михаил Викторович Колодкина Наталья Александровна Макушев Александр Сергеевич	RU2641225C2
ВЕРИФИКАЦИЯ РЕЗУЛЬТАТОВ ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ СИМВОЛОВ	2016	Калюжный Алексей Иванович	RU2634194C1
СПОСОБ И СИСТЕМА ДЛЯ ВЕРИФИКАЦИИ В ПРОЦЕССЕ ЧТЕНИЯ	2014	Пахчанян Арам Бенгурович Погосский Михаил Павлович	RU2571396C2
СПОСОБ ТОРГОВЛИ ЗА БЕЗНАЛИЧНЫЙ РАСЧЕТ С ИСПОЛЬЗОВАНИЕМ КОММУНИКАЦИОННОЙ СЕТИ (ВАРИАНТЫ)	2000	Черноморов С.А. Павленко С.В. Зиновьев С.В. Колесник В.В.	RU2174707C1