Изобретение относится к области распознавания данных и может быть использовано для предварительной обработки и распознавания контента сжатых неподвижных графических сообщений (НГС) в формате JPEG при решении задач анализа больших объемов мультимедийной информации.
Для удобства описания способа распознавания контента сжатых НГС в формате JPEG введем ряд определений.
Под сжатыми НГС в формате JPEG понимаются неподвижные цифровые изображения, сжатые в соответствии со спецификацией JFIF и представленные в виде файлов формата JPEG – стандарт сжатия цифрового изображения, определенный в ИСО/МЭК 10918-1 [ГОСТ Р ИСО/МЭК 19794-5–2013]. Для сжатия контента НГС в формате JPEG (цифровых изображений в формате JPEG) последовательно выполняются три основные операции: дискретное косинусное преобразование (ДКП, Discrete Cosine Transform), округление (квантование, Quntization) коэффициентов ДКП и их последующее энтропийное кодирование (кодами RLE и Хаффмана) [ИСО/МЭК 10918-1].
Под контентом сжатых НГС в формате JPEG в предлагаемом изобретении понимается содержательная часть сообщений, сведений [ГОСТ Р 43.0.7–2011].
Цифровое изображение – матрица из пикселей, организованной в формате строк и колонок. Цифровое изображение с составляющими М на N шкалы уровней серого или цветовых значений состоит из
Пиксель – наименьший элемент поверхности визуализации, которому может быть независимым образом заданы цвет, интенсивность и другие характеристики изображения [ГОСТ 27459-87 Системы обработки информации. Машинная графика. Термины и определения – С. 3].
Цветовая модель RGB – аддитивная цветовая модель, как правило, описывающая способ синтеза цвета для цветовоспроизведения (Синтез цвета // Фотокинотехника: Энциклопедия / Главный редактор Е. А. Иофис. – М. : Советская энциклопедия, 1981. – 274 с.).
Растровая графика – область машинной графики, в которой изображения генерируются из массива пикселей, упорядоченных по строкам и столбцам [ГОСТ 27459-87 Системы обработки информации. Машинная графика. Термины и определения – С. 2].
Для решения задачи распознавания контента сжатых НГС в формате JPEG в разных способах могут применятся различные варианты их представления: растровая графика, векторная графика, фрактальная графика и их комбинации.
Известен способ распознавания текстовой информации из векторно-растрового изображения (патент RU № 2309456 от 27.10.2007), который включает в себя следующие этапы: разбиение изображения до получения областей (фрагментов), содержащих неразрывный логически связанный текст наибольшего размера; разбиение на области, предположительно содержащие текст для последующего анализа соседних областей на возможность их объединения в более крупные фрагменты, разбиение текстовых объектов на отдельные символы и группы символов по предполагаемым местам размещения пробелов или других неидентифицируемых символов; анализ и составление (объединение, сборка) групп символов в строки, разбиение на отдельные символы и группы символов для последующего преобразования абсолютных координат символов в группы, разделенные пробелами и увеличенными межсимвольными промежутками; обработку и анализ растровых объектов для выявления изображения текста в нетекстовых объектах, анализ для выявления векторных объектов, отличных от разделителей, в том числе выходящих за пределы объекта.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ распознавания контентного содержания сообщений графических форматов (патент RU № 2479028 от 10.04.2013), заключающийся в том, что для решения задачи распознавания контента сжатых НГС формата JPEG, на первом этапе: определяют объем растра изображения, содержащегося в НГС, и отсеивают сообщения, принадлежащие к элементам Web-дизайна (баннеры); декодируют принятый графический файл в сообщение графического формата цветовой схемы RGB; преобразуют сообщение графического формата в двумерный массив элементов, описывающий структуру растра изображения; определяют объем растра изображения и полученное значение объема растра сравнивают с пороговым значением и отсеивают сообщения, принадлежащие к элементам Web-дизайна; на втором этапе: оценивают значение признаков, характеризующих энтропию сообщений графических форматов и принимают решение о контенте цифрового изображения содержании сообщения; рассчитывают значение результирующего информативного признака характеризующего контент НГС, при этом для вычисления результирующего информативного признака при распознавании контента НГС предлагается многоуровневая схема преобразований структурных признаков объекта с целью получения значений, характеризующих энтропию НГС; сравнивают полученное значение информативного признака с пороговыми значениями и принимают решение о типе контента анализируемого сжатого НГС.
Технической проблемой данных аналога и прототипа является высокая длительность обработки (низкая эффективность) каждого сжатого НГС в формате JPEG в связи с необходимостью выполнения всех процедур преобразования сжатого НГС в формате JPEG в цветовую схему RGB для получения растра цифрового изображения; а также низкая вероятность правильного распознавания контента сжатого НГС из-за использование одного информативного признака.
Для решения технической проблемы предлагается способ распознавания контента сжатых НГС в формате JPEG, позволяющий сократить время (повысить эффективность) обработки каждого сжатого НГС в формате JPEG за счет уменьшения количества операций по обработке сжатого НГС в формате JPEG путем исключения процедур деквантования значений массивов коэффициентов и последующего их преобразования в цветовую схему RGB, а также повысить вероятность правильного распознавания контента сжатого НГС за счет использования нескольких информативных признаков.
В заявленном способе эта задача решается тем, что на основе анализа служебной части файла формата JPEG определяют объем его растра, декодируют информационную часть файла формата JPEG по Хаффману, формируют двумерный массив значений коэффициентов дискретного косинусного преобразования цветовой компоненты Y, дополнительно формируют обучающую выборку для двух классов сжатых неподвижных графических сообщений в формате JPEG в зависимости от вида контента. Затем вычисляют в качестве признаков центральные моменты из распределения коэффициентов дискретного косинусного преобразования цветовой компоненты Y каждого файла обучающей выборки и формируют собственный характеристический вектор признаков каждого файла обучающей выборки. Далее формируют двумерные массивы признаков для каждого класса файлов обучающей выборки, вычисляют среднее арифметическое и среднее квадратическое отклонение в массиве признаков обучающей выборки. После чего нормируют значения признаков и используют их для формирования линейного прогностического правила, с помощью которого вычисляют и сохраняют коэффициенты линейной прогностической функции. Затем, на основе полученных нормированных значений признаков собственного характеристического вектора каждого распознаваемого сжатого неподвижного графического сообщения в формате JPEG и сохраненных коэффициентов линейной прогностической функции, получают значение линейной прогностической функции, которое сравнивают с порогом и принимают решение о принадлежности анализируемого сжатого неподвижного графического сообщений в формате JPEG к одному из распознаваемых классов. После этого формируют массивы сжатых неподвижных графических сообщений в формате JPEG в соответствии с принадлежностью к конкретному классу.
Новая совокупность существенных признаков позволяет достичь указанного технического результата по обработке сжатого НГС в формате JPEG, путем исключения процедур деквантования значений массивов коэффициентов и последующего их преобразования в цветовую схему RGB, и использования дополнительных информативных признаков.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа распознавания контента сжатых НГС в формате JPEG, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
Промышленная применимость изобретения обусловлена тем, что устройство, реализующее предложенный способ, может быть осуществлено с помощью современной элементной базы, в качестве которой используются современные высокопроизводительные программируемые логические интегральные схемы (ПЛИС) типа Xilinx Spartan-6 LX45 FPGA или Xilinx Virtex-7 2000T архитектуры FPGA, обеспечивающие быстродействующую обработку потока изображений (Угрюмов Е. П., Программируемые логические матрицы, программируемая матричная логика, базовые матричные кристаллы / Цифровая схемотехника. Учебное пособие для вузов. Изд. 2, БХВ-Петербург, 2004. Глава 7 – 357 с.).
Заявленный способ поясняется чертежами, на которых:
на фиг. 1 – схема общей структуры организации системы распознавания контента сжатых НГС в формате JPEG;
на фиг. 2 – логическая схема этапов обучения системы распознавания контента сжатых НГС в формате JPEG и непосредственно распознавания;
на фиг. 3 – сравнения времени обработки сжатых НГС в формате JPEG прототипом и заявленным способом;
на фиг. 4 – сравнения вероятности распознавания контента сжатых НГС в формате JPEG прототипом и заявленным способом.
Основу предлагаемого способа распознавания контента сжатых НГС в формате JPEG составляют теоретические предпосылки в виде выявленных статистических свойств в массивах коэффициентов ДКП, присущих структуре сжатых НГС в формате JPEG с различным контентом, с применением линейного метода распознавания данных с обучением. С учетом этого способ включает в себя два основных этапа (фиг.1): обучение системы и непосредственно распознавание контента сжатых НГС в формате JPEG на основе сохраненных результатов обучения путем разделения на классы S1 и S2 в зависимости от типа контента.
Реализация заявленного способа заключается в следующем (фиг. 2).
1. Считывают из массива файлов формата JPEG служебную область очередного обрабатываемого файла, необходимую для правильного декодирования информационной области файла, т.е. размеры массива пикселей, адрес информационной области (области контента), таблицы кода Хаффмана.
2. На основании данных из служебной области о размере изображения определяют объем растра изображения
3. Декодируют информационную часть файла формата JPEG кодом Хаффмана.
4. Декодируют повторы (RLE-декодирование) области контента сжатого НГС.
5. Формируют из полученных после RLE-декодирования области контента сжатого НГС в формате JPEG двумерный массив коэффициентов ДКП цветовой компоненты Y, отвечающую за яркость. Натурные эксперименты показали, что именно данная компонента содержит основную информацию о контенте сжатого изображения.
6. Вычисляют центральные моменты из распределений коэффициентов ДКП цветовой компоненты Y, в общем виде согласно выражению (1):
где s – порядок момента;
Формирование словаря признаков
Отмечается, что моменты более высоких порядков позволяют охарактеризовать и «усилить роль» больших, но маловероятных значений случайной величины. Как показали эксперименты в данных характеристиках случайной величины и наблюдаются основные отличия у НГС с разным контентом. Учитывая это, для получения точечных оценок из распределения случайной величины при неизвестном законе распределения в предлагаемом способе используются центральные моменты порядков 2–10. Применение для создания распознающей системы центральных моменты именно данных порядков основывается на предварительно проведенных натурных экспериментах, в которых оценивалась эффективность разделения НГС на классы с помощью комбинаций признаков.
7. Формируют собственный характеристический вектор (СХВ) признаков каждого считанного файла формата JPEG, который включает значения центральных моментов различных порядков, вычисленных из распределения коэффициентов ДКП цветовой компоненты Y и характеризующих особенности частотной области обрабатываемого НГС:
Обучают систему распознавания контента сжатых НГС в формате JPEG, основываясь на модели линейного дискриминантного анализа Фишера [Горелик, А. Л. Методы распознавания: учебное пособие для вузов / А. Л. Горелик, В. А. Скрипкин. – Изд. 4. – Москва: Букинист. – 2004. − 262 с.] На этапе обучения выполняют следующее:
8. Формируют обучающую выборку для двух классов (S1 и S2) сжатых НГС в формате JPEG в зависимости от вида контента.
Количество НГС каждого класса в обучающей выборке определяют исходя из испытаний Бернулли, как следствия из закона больших чисел [Вентцель, Е. С. Теория вероятностей: учебник / Е.С. Вентцель. – 11-е изд., стер. – Москва: КНОРУС, – 2010. – 664 с.]:
где
ε – точность определения вероятности, Ф(∙) – функция Лапласа;
При условии вероятности ложной тревоги, не превышающей значение
9. Из векторов всех сжатых НГС в формата JPEG, включенных в обучающую выборку, формируют двумерные массивы признаков для каждого класса файлов обучающей выборки
10. В массиве признаков обучающей выборки без разбиения на классы вычисляют среднее арифметическое
11. Нормируют значения признаков (j-го признака i-го сжатого НГС в формата JPEG) в массивах обучающей выборки в соответствии с выражением (4):
где –
Нормирование элементов векторов признаков приводит к приведению их к безразмерным величинам и к определенному диапазону изменений значений этих признаков.
12. Используют нормированные значения признаков для формирования линейного прогностического правила следующего вида:
где
Среднюю ковариационную матрицу
где n1 и n2 – количество сжатых НГС в формате JPEG в соответствующих парах классов в обучающей выборке;
где
13. Вычисляют коэффициенты линейной прогностической функции, представляющей собой уравнение разделяющей поверхности, которое в общем виде можно представить выражением (8):
где
14. Сохраняют результаты обучения классификатора в виде коэффициентов линейной прогностической функции
Следовательно, для реализации этапа распознавания необходима информация, полученная на этапе обучения классификатора
15. На этапе распознавания контента сжатого НГС в формате JPEG нормируют значения признаков СХВ распознаваемого сжатого НГС в соответствие с выражением (4) и на основе результатов, полученных в блоке 11.
16. Подставляют нормированные значения признаков СХВ распознаваемого сжатого НГС в формате JPEG в линейное прогностическое правило, полученное в блоке 12.
17. Вычисляют значение полученной в блоке 13 линейной прогностической функции (8), используя результаты обучения классификатора в виде коэффициентов линейной прогностической функции
18. Разделяют сжатые НГС в формате JPEG на классы по видам контента в соответствии с правилом: если
Экспериментальная проверка способа прототипа и способа распознавания контента сжатых НГС в формате JPEG была выполнена на ЭВМ при помощи пакета прикладных программ для решения задач технических вычислений MATLAB с использованием дополнительных библиотек функций реализованных в С++ при следующих исходных данных:
1) 500 сжатых НГС в формате JPEG класса S1 с объемом каждого файла 500–3 000 кбайт, содержащих цифровые изображения текста (цифровые фотографии книг, газет, учебников);
2) 500 сжатых НГС в формате JPEG класса S2 с объемом каждого файла 500–3 000 кбайт, содержащих цифровые изображения пейзажей и портретов.
3) сжатые НГС в формате JPEG не искажены и в хорошем качестве с объемом растра не менее порогового значения,
Таблица 1
прототипа
Результаты экспериментов показали, что при сравнении основных показателей способа прототипа и заявленного способа следует вывод, что в предлагаемом способе повышается вероятность правильного распознавания с 92 % до 97 % (фиг.3) и уменьшается длительность обработки (фиг.4) при распознавании контента сжатых НГС формата JPEG двух различных классов: содержащих и не содержащих текст.
Таким образом, эффективность заявленного способа по сравнению со способом прототипа увеличилась на 16,7 %, а также вероятность правильного распознавания контента сжатых НГС формата JPEG выросла на 5 %, чем достигается заявленный технический результат.
Заявленный способ распознавания контента сжатых НГС формата JPEG, с помощью которого можно осуществлять предварительное распознавание контента сжатых НГС и основанный на различиях статистических свойств коэффициентов ДКП яркостной составляющей Y, позволяет сократить время обработки каждого сжатого НГС в формате JPEG за счет уменьшения количество операций по декодированию путем исключения процедур деквантования значений массивов коэффициентов и последующего их преобразования в цветовую схему RGB, а также повысить вероятность правильного распознавания контента НГС в формате JPEG за счёт использования нескольких информативных признаков.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ИДЕНТИФИКАЦИИ ЦИФРОВОГО ИЗОБРАЖЕНИЯ, СОДЕРЖАЩЕГО ЦИФРОВОЙ ВОДЯНОЙ ЗНАК | 2006 |
|
RU2304306C1 |
СПОСОБ ПОИСКА ЦИФРОВОГО ИЗОБРАЖЕНИЯ, СОДЕРЖАЩЕГО ЦИФРОВОЙ ВОДЯНОЙ ЗНАК | 2013 |
|
RU2559773C2 |
СПОСОБ РАСПОЗНАВАНИЯ КОНТЕНТНОГО СОДЕРЖАНИЯ СООБЩЕНИЙ ГРАФИЧЕСКИХ ФОРМАТОВ | 2011 |
|
RU2479028C2 |
СПОСОБ ИДЕНТИФИКАЦИИ ЗВУКОВОГО ФАЙЛА, СОДЕРЖАЩЕГО ЦИФРОВОЙ ВОДЯНОЙ ЗНАК | 2008 |
|
RU2390054C2 |
СПОСОБ ПОВЫШЕНИЯ КАЧЕСТВА ЦИФРОВОГО ИЗОБРАЖЕНИЯ НА ОСНОВЕ МЕТАДАННЫХ | 2008 |
|
RU2374688C1 |
СПОСОБ И СИСТЕМА ПОИСКА ГРАФИЧЕСКИХ ИЗОБРАЖЕНИЙ | 2022 |
|
RU2807639C1 |
Способ дифференциальной диагностики болезни Крона толстой кишки и язвенного колита на основе морфологического анализа с помощью искусственного интеллекта | 2023 |
|
RU2814031C1 |
СПОСОБ СЖАТИЯ ИЗОБРАЖЕНИЯ | 2012 |
|
RU2500067C2 |
СПОСОБ СКРЫТОЙ ПЕРЕДАЧИ ДАННЫХ В ВИДЕОИЗОБРАЖЕНИИ | 2014 |
|
RU2608150C2 |
СПОСОБ И УСТРОЙСТВО ОБУЧЕНИЯ МОДЕЛИ ПРОВЕРКИ КОНТЕНТА, СПОСОБ И УСТРОЙСТВО ПРОВЕРКИ ВИДЕОКОНТЕНТА, ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО И ЗАПОМИНАЮЩЕЕ УСТРОЙСТВО | 2020 |
|
RU2801541C1 |
Изобретение относится к области распознавания данных. Технический результат − сокращение времени обработки сжатого НГС в формате JPEG за счет уменьшения количества операций и обеспечение правильного распознавания контента. Способ распознавания сжатого неподвижного графического сообщения основан на последовательности операций, в результате которых декодируют файл формата JPEG до процедуры деквантования, формируют массив значений коэффициентов ДКП цветовой компоненты Y, вычисляют центральные моменты из распределения этих коэффициентов, формируют собственный характеристический вектор признаков, нормируют их значения, затем используют их в линейном прогностическом правиле и принимают решение о принадлежности сжатого НГС в формате JPEG к одному из распознаваемых классов. 4 ил., 1 табл.
Способ распознавания контента сжатого неподвижного графического сообщения в формате JPEG, заключающийся в том, что на основе анализа служебной части файла формата JPEG определяют объем его растра, декодируют информационную часть файла формата JPEG по Хаффману, формируют двумерный массив значений коэффициентов дискретного косинусного преобразования цветовой компоненты Y, отличающийся тем, что формируют обучающую выборку для двух классов сжатых неподвижных графических сообщений в формате JPEG в зависимости от вида контента, вычисляют в качестве признаков центральные моменты из распределения коэффициентов дискретного косинусного преобразования цветовой компоненты Y каждого файла обучающей выборки, формируют собственный характеристический вектор признаков каждого файла обучающей выборки, потом формируют двумерные массивы признаков для каждого класса файлов обучающей выборки, вычисляют среднее арифметическое и среднее квадратическое отклонение в массиве признаков обучающей выборки, затем нормируют значения признаков и используют их для формирования линейного прогностического правила, с помощью которого вычисляют и сохраняют коэффициенты линейной прогностической функции, затем на основе полученных нормированных значений признаков собственного характеристического вектора каждого распознаваемого сжатого неподвижного графического сообщения в формате JPEG и сохраненных коэффициентов линейной прогностической функции получают значение линейной прогностической функции, которое сравнивают с порогом и принимают решение о принадлежности анализируемого сжатого неподвижного графического сообщения в формате JPEG к одному из распознаваемых классов, после чего формируют массивы сжатых неподвижных графических сообщений в формате JPEG в соответствии с принадлежностью к конкретному классу.
СПОСОБ РАСПОЗНАВАНИЯ КОНТЕНТНОГО СОДЕРЖАНИЯ СООБЩЕНИЙ ГРАФИЧЕСКИХ ФОРМАТОВ | 2011 |
|
RU2479028C2 |
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ ИЗ ВЕКТОРНО-РАСТРОВОГО ИЗОБРАЖЕНИЯ | 2005 |
|
RU2309456C2 |
РЕВЯКИН А.М | |||
и др | |||
Распознавание контента сжатых неподвижных графических сообщений на уровне коэффициентов дискретного косинусного преобразования, Новые информационные технологии в автоматизированных системах, 2017, N20, [Найдено 15.01.2019] | |||
Найдено в Интернет по адресу: https://cyberleninka.ru/article/n/raspoznavanie-kontenta-szhatyh-nepodvizhnyh-graficheskih-soobscheniy-na-urovne-koeffitsientov-diskretnogo-kosinusnogo | |||
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ГРАНИЦ ЭЛЕМЕНТА КОНТЕНТА | 2006 |
|
RU2413990C2 |
СПОСОБ ОБНАРУЖЕНИЯ ТЕКСТА В РАСТРОВОМ ИЗОБРАЖЕНИИ (ВАРИАНТЫ) И СПОСОБ ВЫЯВЛЕНИЯ СПАМА, СОДЕРЖАЩЕГО РАСТРОВЫЕ ИЗОБРАЖЕНИЯ | 2007 |
|
RU2363047C1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Авторы
Даты
2019-02-19—Публикация
2018-05-14—Подача