Изобретение относится к информатике, а именно к устройствам для распознавания документов.
Наиболее близким аналогом заявляемого изобретения является устройство дистанционного распознавания подлинности документов в WEB-приложении на мобильном устройстве (патент на полезную РФ №2806012), которое содержит модуль приема запросов пользователей, модуль селекции адресов записей идентификационных данных документов в базе данных сервера, модуль приема адресов записей идентификационных данных документов в базе данных сервера, модуль верификации данных реквизитов распознаваемых документов, модуль верификации контента распознаваемых документов, модуль приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, и модуль выдачи транзакций пользователям. Недостатком этого технического решения является недостаточное высокое качество распознавания условно жестких деловых документов с автоматической привязкой их полей.
Технической задачей заявляемого изобретения является развитие арсенала устройств для автоматического распознавания цифровых документов.
Решение технической задачи достигается за счет того, что модуль приема запросов пользователей, информационный вход которого является первым информационным входом устройства, предназначенным для приема запросов пользователей на распознавание документов, синхронизирующий вход модуля приема запросов пользователей является первым синхронизирующим входом устройства, предназначенным для занесения запросов пользователей в модуль приема запросов пользователей, модуль селекции адресов записей идентификационных данных документов в базе данных сервера, информационный вход которого соединен с первым информационным выходом модуля приема запросов пользователей, а синхронизирующий вход модуля селекции адресов записей идентификационных данных документов в базе данных сервера подключен к первому синхронизирующему входу устройства, при этом информационный выход модуля селекции адресов записей идентификационных данных документов в базе данных сервера, является адресным выходом устройства, предназначенным для выдачи адресов считывания документов на адресный вход сервера базы данных, а синхронизирующий выход модуля селекции адресов записей идентификационных документов в базе данных сервера системы является синхронизирующим выходом устройства, предназначенным для выдачи сигналов на вход первого канала прерывания сервера базы данных, модуль приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, первый и второй информационные входы которого являются вторым и третьим информационными входами устройства соответственно, предназначенными для приема данных и транзакций из базы данных сервера, а первый и второй синхронизирующие входы модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера являются вторым и третьим синхронизирующими входами устройства соответственно, предназначенным для занесения записей базы данных и транзакций в модуль приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, причем модуль верификации данных реквизитов распознаваемых документов, один информационный вход которого соединен со вторым информационным выходом модуля приема запросов пользователей, другой информационный вход модуля верификации данных реквизитов распознаваемых документов подключен к первому информационному выходу модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, а синхронизирующий вход модуля верификации данных реквизитов распознаваемых документов соединен с первым синхронизирующим выходом модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, модуль верификации контента распознаваемых документов, один информационный вход которого соединен с третьим информационным выходом модуля приема запросов пользователей, а другой информационный вход модуля верификации контента распознаваемых документов подключен к второму информационному выходу модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, первый и второй синхронизирующие входы модуля верификации контента распознаваемых документов соединены с первым и вторым синхронизирующими выходами модуля верификации данных реквизитов распознаваемых документов соответственно, при этом первый синхронизирующий выход модуля верификации контента распознаваемых документов пользователей является вторым синхронизирующим выходом устройства, предназначенным для выдачи сигналов управления на вход второго канала прерывания сервера базы данных системы, а другой синхронизирующий выход модуля верификации контента распознаваемых документов является третьим синхронизирующим выходом устройства, предназначенным для выдачи сигналов управления на вход третьего канала прерывания сервера базы данных, и модуль выдачи транзакций пользователям, адресный вход которого соединен с четвертым информационным выходом модуля приема запросов пользователей, информационный вход модуля выдачи транзакций пользователям подключен к третьему информационному выходу модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, синхронизирующий вход модуля выдачи транзакций пользователям подключен к первому синхронизирующему выходу модуля верификации контента распознаваемых документов пользователей, при этом информационные выходы модуля выдачи транзакций пользователям являются группой информационных выходов устройства, встроенный накопитель с энергонезависимой памятью, содержит базу данных эталонных документов, микропроцессор выполнен с возможностью распознавания графических примитивов и их взаимного расположения на цифровом образе документа, а также сравнения эталонного и распознаваемого документов, микропроцессор соединен с модулем верификации контента распознаваемых документов и с накопителем с энергонезависимой памятью, а выход микропроцессора является одним из выходов устройства.
Технический результат, достигаемый указанной совокупностью признаков, заключается в повышении качества распознавания условно жестких деловых документов с автоматической привязкой их полей.
Функционирование устройства поясняется фигурой, на котором представлена структурная схема устройства. Устройство (фиг. 1) содержит:
модуль 1 приема запросов пользователей,
модуль 2 селекции адресов записей идентификационных данных документов в базе данных сервера,
модуль 3 приема адресов записей идентификационных данных документов в базе данных сервера,
модуль 4 верификации данных реквизитов распознаваемых документов,
модуль 5 верификации контента распознаваемых документов, модуль 6 приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, модуль 7 выдачи транзакций пользователям,
модуль 8 накопитель с энергонезависимой памятью, содержащий базу данных эталонных документов,
модуль 9 микропроцессор, выполненный с возможностью распознавания графических примитивов и их взаимного расположения на цифровом образе документа, а также сравнения эталонного и распознаваемого документов.
Рамкой из трех параллельных линий условно показан корпус устройства, все соединения его компонентов выполнены проводами.
База данных сервера содержит массив учетных записей идентификационных данных документов.
Показаны первый 10, второй 11, и третий 12 информационные входы устройства, первый 13, второй 14 и третий 15 синхронизирующие входы устройства, а также адресный 16 выход устройства, первый 17, второй 18 и третий 19 синхронизирующие выходы устройства, информационные 20-22 выходы группы устройства.
Модуль 1 приема запросов пользователей выполнен в виде регистра, имеющего информационный 10 и синхронизирующий 13 входы, а также первый 25, второй 26, третий 27 и четвертый 28 информационные выходы.
Модуль 2 селекции адресов записей идентификационных данных документов в базе данных сервера содержит дешифратор, блок памяти, выполненный в виде постоянного запоминающего устройства, элементы И, элементы задержки. Показаны информационный 35 и синхронизирующий 36 входы, а также информационный 37, первый 38 и второй 39 синхронизирующие выходы.
Модуль 3 приема адресов записей идентификационных данных документов в базе данных сервера выполнен в виде регистра, имеющего информационный 40 и синхронизирующий 41 входы, а также адресный 16 выход.
Модуль 4 верификации данных реквизитов распознаваемых документов выполнен в виде компаратора, имеющего первый 42 и второй 43 информационные, и синхронизирующий 44 входы, а также первый 45 и второй 46 синхронизирующие выходы.
Модуль 5 верификации контента распознаваемых документов содержит компаратор и элемент ИЛИ. Показаны первый 47 и второй 48 информационные входы, первый 49 и второй 50 синхронизирующие входы, а также первый 18 и второй 19 синхронизирующие выходы.
Модуль 6 приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера содержит первый и второй регистры, элемент задержки. Показаны первый 11 и второй 12 информационные входы, первый 14 и второй 15 синхронизирующие входы, а также первый 29, второй 30 и третий 31 информационные выходы, и синхронизирующий 32 выход.
Модуль 7 выдачи транзакций пользователям содержит дешифратор, группы элементов И, элемент задержки. Показаны адресный 51, информационный 52, и синхронизирующий 53 входы, а также информационные выходы 20-22 группы.
Модуль 8 - встроенный накопитель с энергонезависимой памятью, содержащий базу данных эталонных документов.
Модуль 9 - микропроцессор, выполненный с возможностью распознавания графических примитивов и их взаимного расположения на цифровом образе документа, а также сравнения эталонного и распознаваемого документов.
Микропроцессор соединен 33 с модулем верификации контента распознаваемых документов и 34 с накопителем с энергонезависимой памятью, выход микропроцессора 41 является одним из выходов устройства, выход 23 предназначен для коррекции содержимого модуля 8.
Устройство работает следующим образом.
При необходимости распознавания условно жестких деловых документов с автоматической привязкой их полей и проверки подлинности документа пользователь системы формирует запрос на распознавание.
С этой целью сканируется распознаваемый документ и формируется его цифровой образ, Кодограмма запроса поступает на информационный 10 вход модуля 1 и затем заносится в регистр 1 синхронизирующим импульсом, поступающим с входа 13 устройства на синхронизирующий вход модуля 1.
Идентификационный код номера документа с выхода 25 модуля 1 поступает на вход 35 модуля 2 и далее на вход дешифратора. Дешифратор расшифровывает идентификационный код документа, выдавая на один их своих выходов высокий потенциал.
Для определенности положим, что высокий потенциал поступил на один вход элемента И. Параллельно с этим, синхронизирующий импульс с входа 13 модуля 1 поступает на вход 36 модуля 2, задерживается элементом 65 на время приема кодограммы запроса модулем 1, и затем поступает на одни входы элементов 62-64 И, опрашивая состояния указанных элементов.
Во-вторых, тот же синхронизирующий импульс задерживается на время считывания содержимого фиксированной ячейки блока памяти, и затем поступает синхронизирующий вход регистра 3. Код адреса с выхода постоянного запоминающего устройства поступает на информационный вход регистра 3, куда он заносится синхронизирующим импульсом с выхода элемента задержки модуля 2, а затем выдается на адресный выход 16 устройства. Этот же импульс синхронизации задерживается элементом модуля 2 на время срабатывания регистра 3 и затем с выхода 39 элемента задержки выдается на выход 17 устройства, откуда он поступает на первый канал прерывания сервера базы данных.
По этому сигналу сервер базы данных переходит на подпрограмму считывания данных запрашиваемого документа из базы данных сервера и выдачу его на информационный вход 11 модуля 6, куда данные заносятся синхронизирующим сигналом сервера, поступающим на вход 14 устройства. Одновременно с этим, синхронизирующий импульс с входа 14 устройства, поступающий на синхронизирующий 44 вход модуля 4, задерживается элементом задержки на время занесения кодов в модуль 6, и далее поступает на синхронизирующий 44 вход компаратора модуля 4.
К этому моменту времени с выхода 26 модуля 1 на вход 42 модуля 4 поданы данные реквизитов запрашиваемого документа, а на другой информационный 43 вход поданы данные реквизитов документа с информационного выхода 29 модуля 6. Если идентификационные данные на входах 42 и 43 компаратора 4 совпадают, то модуль 4 формирует сигнал о факте совпадения кодов и выдает его на выход 46.
Этот сигнал с выхода 46 модуля 4 поступает на вход 50 модуля 5, на один информационный 47 вход которого к этому моменту времени с выхода 27 модуля 1 подан цифровой контент документа, а на другой 48 информационный вход модуля 5 с информационного 30 выхода модуля 6 подан код цифрового контента документа из базы данных сервера.
С поступлением синхронизирующего импульса на вход 50 модуля 5 компаратор сравнивает указанные данные, и если эти данные совпадают, то компаратор формирует сигнал, который с выхода 18 модуля 5, во-первых, поступает на вход второго канала прерывания сервера базы данных. По этому сигналу сервер базы данных переходит па подпрограмму формирования сообщения пользователю о подтверждении подлинности запрашиваемого документа его оригиналу и выдачу соответствующей транзакции в адрес пользователя.
Сформированная сервером транзакция о подтверждении подлинности запрашиваемого документа через информационный 12 вход модуля 6 поступает на информационный вход регистра, куда оно заносится синхронизирующим импульсом с входа 15 модуля 6.
С информационного 31 выхода регистра данные транзакции поступают на одни входы 52 элементов И. К этому моменту времени через адресный 51 вход модуля 7 на вход дешифратора с выхода 28 модуля 1 поступает код адреса пользователя. Дешифратор модуля 7 расшифровывает код адреса пользователя и высоким потенциалом на одном из своих выходов открывает одну из групп элементов И.
С приходом синхронизирующего импульса на вход 53 модуля 7, последний задерживается элементом задержки на время занесения формирования транзакции сервером системы, и затем поступает на третьи входы элементов И, открывая элементы И только той группы, которая будет открыта высоким потенциалом одного из выходов дешифратора.
В этом случае, данные транзакции будут выданы в адрес пользователя через информационный выход 21 устройства. Если же идентификационные данные на входах 42 и 43 модуля 4 не совпадают, то модуль 4 формирует сигнал о факте несовпадения кодов и выдает его на выход 45 модуля 4 и далее на вход 49 модуля 5, где проходит элемент ИЛИ, а затем выдастся на третий синхронизирующий 19 выход устройства, откуда поступает на вход третьего канала прерывания сервера базы данных.
По этому сигналу сервер базы данных формирует сообщение об отрицательном результате проверки подлинности идентификационных данных и выдачи этого сообщения пользователю описанным выше образом.
Затем осуществляется распознавание полей документа. Модуль 8 - встроенный накопитель с энергонезависимой памятью - содержит базу данных эталонных документов, модуль 9 - микропроцессор, выполняет распознавание графических примитивов и их взаимного расположения на цифровом образе документа, а также сравнивает эталонный и распознаваемый документ. Микропроцессор соединен с модулем верификации контента распознаваемых документов, откуда поступает документ, и с накопителем с энергонезависимой памятью, откуда поступают характеристики (атрибуты) эталонного документа. Выход микропроцессора является одним из выходов устройства - с него пользователю выдается распознанный документ, а выход 23 предназначен для коррекции содержимого модуля 8 (занесение информации о новых эталонных документах, коррекция информация о имеющихся эталонных документах и т.п.).
Постановка задачи распознавания документа состоит в следующем. На основании распознавания текстовых объектов и найденных графических примитивов найти границы полей (областей заполнения) и извлечь информацию из областей полей.
Распознавание образа документа реализуется в виде следующих этапов: нормализация образа страницы, в том числе, поиск области документа и его приведение к прямоугольному виду; распознавание слов; извлечение графических объектов; классификация типа документа; поиск локальных особенностей; поиск границ полей документа известного типа с помощью границ локальных особенностей; извлечение или распознавание содержимого полей в найденных границах с помощью атрибутов полей; постобработка распознанных полей с помощью словарных моделей.
Критерием качества решения задачи распознавания является извлечение информации из границ максимального числа полей с наименьшим числом ошибок для каждого поля. Извлекаемая информация может иметь вид не только набора символов, но и границ найденного поля.
Реализуемый микропроцессором способ привязки полей условно жестких деловых документов при их распознавании заключается в том:
на оцифрованной бумажной версии (цифровом образе) документа (информация о взаимном расположении графических примитивов в каждом эталонном документе, хранящемся в базе данных эталонных документов, содержит: минимальные расстояния от середины каждого из четырех ребер эталонного документа до ближайшей точки каждого графического примитива, минимальные расстояния от каждого из четырех углов эталонного документа до ближайшей точки каждого графического примитива) определяются графические примитивы, к которым относятся QR-коды, штрих-коды, слова статического текста, отрезки, бар-коды, чек-боксы;
на основании взаимного расположения графических примитивов (углы и нормализованные расстояния между ними) цифровой образ текущего документа отождествляется с цифровым образом одного из эталонных документов, хранящихся в заранее сформированной базе данных эталонных документов. База данных эталонных документов содержит информацию о взаимном расположении графических примитивов в каждом эталонном документе, а также указания на тип информации, содержащейся в каждом графическом примитиве: QR-коды, штрих-коды, отрезки, бар-коды, тип-текстовая, цифровая или комбинированная - и язык информации в каждом чек-боксе.
Текущий цифровой образ документа отождествляется с одним из образов, хранимым в базе данных, по результатам отождествления распознается информация в каждом чек-боксе - априорные сведения об информации повышают качество распознавания.
Затем проводится проверка формальной корректности заполнения документа как соответствие распознанной информации ожидаемой информации.
Если формальная корректность подтверждается, то информация из документа заносится в таблицу «номер документа - графический примитив -информация, содержащаяся в графическом примитиве», иначе - документ направляется на ручную обработку.
Качество заявляемого способа проверено на собственном тестовом датасете, содержащем 418 изображений условно жесткого документа. Документы были напечатаны на листах размера А4 и оцифрованы камерами мобильных устройств в различных условиях освещения и съемки. В процессе оцифровки образы документов были подвергнуты проективным искажениям и нелинейным деформациям листов.
В качестве альтернативного способа распознавания использовался SDK Smart Document Engine (https://smartengines.com/).
В результате показано, что средняя точность распознавания одной пометки увеличилась с 87.85% до 88.94% - то есть на тестовом датасете доля ошибок распознавания пометок уменьшилась более, чем в 2 раза.
Этим доказано достижение заявленного технического результата - повышение качества распознавания условно жестких деловых документов с автоматической привязкой их полей.
Изобретение относится к информатике, а именно к устройствам для распознавания документов. Устройство для распознавания условно жестких деловых документов с автоматической привязкой их полей содержит модуль приема запросов пользователей, модуль селекции адресов записей идентификационных данных документов в базе данных сервера, модуль приема адресов записей идентификационных данных документов в базе данных сервера, модуль верификации данных реквизитов распознаваемых документов, модуль верификации контента распознаваемых документов, модуль приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера и модуль выдачи транзакций пользователям, встроенный накопитель с энергонезависимой памятью, содержащий базу данных эталонных документов, и микропроцессор, выполненный с возможностью распознавания графических примитивов и их взаимного расположения на цифровом образе документа, а также сравнения эталонного и распознаваемого документов. Достигаемый технический результат заключается в повышении качества распознавания условно жестких деловых документов с автоматической привязкой их полей. 1 ил.
Устройство для распознавания условно жестких деловых документов с автоматической привязкой их полей, характеризующееся тем, что модуль приема запросов пользователей, информационный вход которого является первым информационным входом устройства, предназначенным для приема запросов пользователей на распознавание документов, синхронизирующий вход модуля приема запросов пользователей является первым синхронизирующим входом устройства, предназначенным для занесения запросов пользователей в модуль приема запросов пользователей, модуль селекции адресов записей идентификационных данных документов в базе данных сервера, информационный вход которого соединен с первым информационным выходом модуля приема запросов пользователей, а синхронизирующий вход модуля селекции адресов записей идентификационных данных документов в базе данных сервера подключен к первому синхронизирующему входу устройства, при этом информационный выход модуля селекции адресов записей идентификационных данных документов в базе данных сервера, является адресным выходом устройства, предназначенным для выдачи адресов считывания документов на адресный вход сервера базы данных, а синхронизирующий выход модуля селекции адресов записей идентификационных документов в базе данных сервера системы является синхронизирующим выходом устройства, предназначенным для выдачи сигналов на вход первого канала прерывания сервера базы данных, модуль приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, первый и второй информационные входы которого являются вторым и третьим информационными входами устройства соответственно, предназначенными для приема данных и транзакций из базы данных сервера, а первый и второй синхронизирующие входы модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера являются вторым и третьим синхронизирующими входами устройства соответственно, предназначенным для занесения записей базы данных и транзакций в модуль приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, причем модуль верификации данных реквизитов распознаваемых документов, один информационный вход которого соединен со вторым информационным выходом модуля приема запросов пользователей, другой информационный вход модуля верификации данных реквизитов распознаваемых документов подключен к первому информационному выходу модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, а синхронизирующий вход модуля верификации данных реквизитов распознаваемых документов соединен с первым синхронизирующим выходом модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, модуль верификации контента распознаваемых документов, один информационный вход которого соединен с третьим информационным выходом модуля приема запросов пользователей, а другой информационный вход модуля верификации контента распознаваемых документов подключен к второму информационному выходу модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, первый и второй синхронизирующие входы модуля верификации контента распознаваемых документов соединены с первым и вторым синхронизирующими выходами модуля верификации данных реквизитов распознаваемых документов соответственно, при этом первый синхронизирующий выход модуля верификации контента распознаваемых документов пользователей является вторым синхронизирующим выходом устройства, предназначенным для выдачи сигналов управления на вход второго канала прерывания сервера базы данных системы, а другой синхронизирующий выход модуля верификации контента распознаваемых документов является третьим синхронизирующим выходом устройства, предназначенным для выдачи сигналов управления на вход третьего канала прерывания сервера базы данных, и модуль выдачи транзакций пользователям, адресный вход которого соединен с четвертым информационным выходом модуля приема запросов пользователей, информационный вход модуля выдачи транзакций пользователям подключен к третьему информационному выходу модуля приема идентификационных данных распознаваемых документов и транзакций из базы данных сервера, синхронизирующий вход модуля выдачи транзакций пользователям подключен к первому синхронизирующему выходу модуля верификации контента распознаваемых документов пользователей, при этом информационные выходы модуля выдачи транзакций пользователям являются группой информационных выходов устройства,
отличающееся тем, что устройство дополнительно содержит встроенный накопитель с энергонезависимой памятью, содержащий базу данных эталонных документов, и микропроцессор, выполненный с возможностью распознавания графических примитивов и их взаимного расположения на цифровом образе документа, а также сравнения эталонного и распознаваемого документов, микропроцессор соединен с модулем верификации контента распознаваемых документов и с накопителем с энергонезависимой памятью, а выход микропроцессора является одним из выходов устройства.
РЕВЕРСИВНЫЙ ДАТЧИК УГЛА ПОВОРОТА | 0 |
|
SU182557A1 |
УСТРОЙСТВО ДЛЯ ИЗМЕРЕНИЯ ВЛАЖНОСТИ | 1966 |
|
SU216368A1 |
АВТОМАТИЗАЦИЯ ПРОВЕРКИ ДОСТОВЕРНОСТИ ИЗОБРАЖЕНИЯ | 2017 |
|
RU2740702C2 |
СПОСОБЫ И СИСТЕМЫ ИДЕНТИФИКАЦИИ ПОЛЕЙ В ДОКУМЕНТЕ | 2021 |
|
RU2774653C1 |
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТА НА ИЗОБРАЖЕНИЯХ ДОКУМЕНТОВ | 2021 |
|
RU2768544C1 |
ВВОД ДАННЫХ ИЗ СЕРИИ ИЗОБРАЖЕНИЙ, СООТВЕТСТВУЮЩИХ ШАБЛОННОМУ ДОКУМЕНТУ | 2016 |
|
RU2634192C1 |
СПОСОБ И СИСТЕМА АВТОМАТИЧЕСКОГО ПРИНЯТИЯ ПРАВОВОГО РЕШЕНИЯ | 2019 |
|
RU2732071C1 |
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
Авторы
Даты
2024-10-07—Публикация
2024-02-16—Подача