Существует множество различных ситуаций, в которых возникает реальная потребность в захвате ("вводе") быстрым, эффективным и простым способом большого количества информации в виде текста или текста+изображения при отсутствии доступа к техническим ресурсам, таким как копировальные машины, сканеры, факсы и компьютеры, которые в настоящее время часто используются в офисах. Примером такой ситуации, где настоящее изобретение было бы наиболее полезным, может служить перелет на самолете, в котором пассажир читает интересную статью с иллюстрациями и диаграммами, например, в газете "Файнэншнл таймс" (Financial Times), и где пассажиру необходимо, по возможности быстро, передать соответствующую информацию коллеге или сохранить статью в качестве ссылки для себя и других. В настоящее время у такого читателя есть выбор, либо вырвать интересные страницы, либо взять с собой целиком всю газету. Во время поездки на конференцию или во время другой более продолжительной поездки ситуация может снова повториться, в результате чего на практике возникает проблема обработки документов с большим объемом информации.
Существует множество подобных ситуаций, где имеется потребность в сборе и/или передаче полученной печатной информации без ограничения или зависимости от офисного оборудования с помощью современных средств, например в случаях, когда читать или работать приходится в постели из-за болезни или лени.
Цель настоящего изобретения состоит в том, чтобы решить эффективным, практическим и гибким способом обозначенную таким образом проблему. Решение основано на комбинации и дальнейшем развитии имеющихся технологий, прежде всего цифровой фотографии, интеллектуальной обработки изображений, включая оптическое распознавание символов (ОРС (OCR)), векторную графику, сжатие данных, широкополосную передачу данных и обработку базы данных.
Основанием для изобретения является использование компактной цифровой камеры ("фотоаппарата"), предпочтительно имеющей широкоугольную оптику, большую апертуру и большую глубину резкости изображения, в том числе и на малых расстояниях, где интеллектуальные возможности основаны на программном обеспечении для обработки и интерпретации полного изображения таким способом, что те части, которые содержат текст, распознаются, преобразовываются и сохраняются в виде, например, ASCII- или EBCDIC-кода, тогда как оставшиеся части сохраняются в виде изображения с требуемым разрешением.
Кроме того, особым признаком способа согласно изобретению является то, что программное обеспечение имеет средства искусственного интеллекта (логические возможности) для интерпретации характеристик качества изображения, таких как шрифт и компоновка, и возможность использования интерпретации для восстановления/синтеза изображения, которое сравнивают с (накладывают на) первоначальным текстом. В случае приемлемого результата сравнения, те части первоначального изображения, которые содержат блоки текста, удаляют, после чего сохраненная информация состоит из кодированного текста, информации о расположении и неинтерпретированных частей изображения.
В тех случаях, где не было достигнуто приемлемого совпадения оригинала с восстановленными/синтезированными изображениями блоков текста, необработанное изображение сохраняется в своем первоначальном формате. Результатом сравнения может быть, например, число совпавших точек, выраженное в процентах. Кроме того, в случае очень хорошего совпадения в процентном отношении могут быть одиночные знаки, слова или фразы, которые интерпретированы неправильно. Такая неинтерпретированная или неправильно интерпретированная первоначальная информация не удаляется из текстового блока, а вместо этого отображается в виде отмеченного соответствующим образом изображения, вставленного в интерпретированный текст. Таким образом, после этого пользователь имеет возможность вмешаться и помочь программе интерпретировать отмеченные таким образом секции.
Другая особенность способа согласно изобретению заключается в том, что программные средства интерпретации, которые в предпочтительном варианте осуществления изобретения установлены непосредственно в камере, но которые можно также выполнить в виде внешнего модуля, включают в себя алгоритмы, основанные на способах векторной графики для анализа и хранения информации относительно расположения первоначального изображения, и эта информация используется в контексте с процедурой сравнения оригинала и синтезируемых изображений и, при необходимости, при последующей распечатке синтезированного изображения для того, чтобы восстановить расположение, которое адаптировано к печати в выбранном формате (например, A4), и по возможности воспроизводит первоначальное расположение. Это важно, так как компоновка (включающая в себя аспекты, такие как подчеркивание, курсив, разбиение на более мелкие части и т.д.) может иметь большое значение для понимания содержания и контекста.
Камера может дополнительно выполнять функции кадрирования с тем, чтобы только определенные выбранные части изображения сохранялись и обрабатывались, посредством чего информация о тексте или изображении, которая считается необязательной (например, картина с синим небом и кукурузным полем в статье о нашей окружающей природе или картина соблазнительной женщины в статье о роли секса), устраняется уже в первоисточнике.
Согласно изобретению информацию можно пометить уже с помощью программных средств интеллектуальной (обладающей логическими возможностями) камеры с тем, чтобы в дальнейшем облегчить обработку информации в базах данных. Это достигается с помощью свойственных функциональных возможностей для автоматического распознавания таких характеристик, как заголовки и имена авторов, а также автоматического выбора ключевых слов из заголовков.
Для получения более высокой гибкости программные средства интеллектуальной камеры можно расширить с помощью опций для перевода на различные языки, и/или для интерпретации математических символов и формул, и/или распознавания одного или нескольких почерков. Распознавание почерка может быть, предпочтительно, основано на алгоритмах самообучения в нейронных системах.
В зависимости от уровня разработки, касающейся емкости памяти и мощности процессора, средства искусственного интеллекта, по возможности, располагают непосредственно внутри камеры. Однако функции и опции, которые на данном уровне разработки рассматриваются как слишком зависящие с точки зрения емкости памяти или мощности процессора и производительности, можно реализовать и выполнить внешним образом, в результате чего могут оказаться очень полезными высокоскоростные протоколы связи (такие как стандарт высокопроизводительной последовательной шины IEEE 1394 (FIRE WIRE 1394)).
Соединение интеллектуальной мобильной цифровой камеры с мобильным телефоном с широкой полосой пропускания позволяет осуществить передачу интерпретированных и сжатых данных в свою собственную базу данных или третьим сторонам. Передачу можно выполнить в режиме реального времени или с задержкой на основании сохраненных данных.
С практической точки зрения важной характеристикой средства согласно изобретению является то, что камера может быть оборудована для получения сверхширокоугольной фотографии для того, чтобы, например, целую страницу вышеупомянутой газетной публикации можно было записать при одной экспозиции на обычном расстоянии наблюдения (от 0,3 до 0,5 м). Это можно достигнуть посредством специальных широкоугольных линз ("объективов"), посредством чего искажения корректируют цифровым способом или фасетными линзами согласно принципу наложения или суперпозиции, посредством чего полное изображение синтезируют с помощью вычислительных средств или с помощью оптики со сканирующим устройством, таким как подвижное зеркало, в случае которого полную картину также составляют с помощью программных средств.
В объеме изобретения, конечно, допускается, что интеллектуальную камеру можно использовать так же, как и известную цифровую камеру.
Изобретение относится к средствам обработки, захвата и передачи текста и смешанной информации, содержащей знаки и изображения. Техническим результатом является обеспечение возможности захвата, распознавания и сохранения текстовой и другой информации. Результат достигается тем, что изображение сначала анализируют по отношению к его текстовой информации, после чего первоначальное изображение сегментируют на блок текста и блок изображения, при этом текст интерпретируют посредством методов оптического распознавания символов, преобразуют и сжимают в код. При этом код дополняют графической информацией, позволяющей создавать синтезированное изображение блока текста. 2 н. и 10 з.п. ф-лы.
Подрезающий аппарат к томатоуборочной машине | 1980 |
|
SU865192A1 |
СПОСОБ ОЦЕНКИ ПЕЧАТНЫХ ИЗОБРАЖЕНИЙ НА НОСИТЕЛЕ | 1992 |
|
RU2109340C1 |
Прибор, замыкающий сигнальную цепь при повышении температуры | 1918 |
|
SU99A1 |
DE 19812082 A1, 23.09.1999. |
Авторы
Даты
2006-11-10—Публикация
2001-07-16—Подача