СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЙ Российский патент 2008 года по МПК G06T7/00 

Описание патента на изобретение RU2322694C2

Изобретение относится к способам обработки визуальной информации (изображений) и может быть использовано в системах технического зрения при решении задач поиска, слежения, наведения, диагностирования и контроля.

Известные способы обработки изображений для систем распознавания, во-первых, предполагают априорное знание класса наблюдаемых изображений, например, анализ символов, алфавитно-цифровой информации, текста, описанный в патентах РФ № 2172016, кл. G06К 9/36, опубл. 2001.08.10; № 2234126, кл. G06К 9/66, опубл. 2004.08.10; № 2239232, кл. С06К 9/36, опубл. 2004.10.27; № 2251151, кл. G06К 9/36, G06K 9/68, опубл. 2005.04.27; анализ текстур, защищенный патентом РФ № 2105351, кл. G06К 9/56, G06K 9/68, опубл. 2005.04.27; выделение и анализ контура, описанные в А.С. СССР № 1509959, кл. G06К 9/36, опубл. 1989.09.23; № 1529262, кл. С06К 9/36, опубл. 1989.12.15; № 1559358, кл. G06К 9/36, опубл. 1990.04.23, № 1672474 кл. G06T 7/60, G06K 9/46, G01S 17/02, опубл. 1991.08.23; патенте РФ №2216040, кл. G06К 9/48, G06T 7/60, опубл. 2003.11.10.

Во-вторых, известные способы обработки изображений для систем распознавания реализуют операцию свертки на пиксельном уровне, например, перечисленные выше изобретения, либо на пиксельном уровне используют амплитудную дискретизацию, например, описанные в А.С. СССР № 1564658, кл. G06K 9/00, G06K 9/36, опубл. 1990.05.15, патенте РФ № 2178915, кл. С06К 9/66, G06F 15/18, опубл. 2002.01.27; патенте РФ № 2193825, кл. Н04М 7/18, G06F 19/00, G06T 7/00, 7/20, 7/60, опубл. 2002.11.27, которые относятся к классу некорректных задач в силу их описания уравнением Фредгольма первого рода и нерешенности проблемы регуляризации [Реконструкция изображений: Пер. с англ. / Под ред. Г.Старка. - М.: Мир, 1992. С.15; Тематический выпуск "Машинное зрение" ТИИЭР, 1988, т.76, № 8]. Поэтому не отвечают необходимьм требованиям по надежности и быстродействию распознавания произвольных, априори не известных изображений, наблюдаемых в поле зрения.

В-третьих, известные способы обработки изображений для систем распознавания используют предварительную фильтрацию помех на изображении для повышения надежности выделения информативных объектов на изображении, например, в А.С. СССР № 1226500, кл. G06K 9/36, опубл. 1986.04.23, А.С. СССР № 1295427 кл. G06K 9/36, опубл. 1987.03.07. Недостатком таких способов является необходимость априорного знания класса помех, что в принципе невозможно в условиях априорной неопределенности наблюдаемого изображения, а также необходимость реализации операции свертки при любой фильтрации, что, как отмечалось, снижает производительность системы обработки изображений.

Наиболее близким для обработки изображений является способ обработки изображения объекта, защищенный Патентом РФ № 2116671, кл. G06Т 7/40, G06K 9/56, опубл. 1998.07.27, в котором реализуются два этапа преобразований информации об изображении:

построение пирамиды изображений, реализуемое "сверху-вниз" через создание копий исходного изображения на каждом уровне пирамиды; для этого реализуются две операции - деление области изображения на подобласти Gi с равными площадями si и усреднение по яркости изображения по элементам μn,m каждой подобласти

;

построение признаковой пирамиды, которая одновременно является пирамидой описания изображения; построение пирамиды заданной высоты осуществляется "сверху-вниз", для этого требуется три операции: деление каждой из подобластей Gi равной площади s по осям координат х, y на участки, образующие множество новых непересекающихся подобластей по каждому варианту деления; усреднение по каждой выделенной подобласти; выявление бинарного отношения порядка между элементами двух непересекающихся выделенных подмножеств благодаря анализу соотношения типа (mi-mj) для равных по площади подобластей.

В результате формируются уровни описания изображения в виде структуры элементов и связей для любого изображения в условиях отсутствия априорной информации о последнем с использованием системы однородных признаков {mi} и системы однородных правил (бинарных отношений между подобластями).

Недостатком прототипа является то, что способ относительно сложен и требует построения двух пирамидальных систем, бинарные отношения выявляются только по двум направлениям и поэтому не удовлетворяют требованиям полноты (необходимости и достаточности) системы преобразований, а независимое последовательное построение двух пирамид и усреднение по площади выделенной подобласти снижают быстродействие обработки изображения.

Указанные недостатки устраняются предлагаемым решением.

Задачей изобретения является совершенствование известного способа.

Технический результат - упрощение способа обработки изображений за счет исключения построения пирамиды копий изображения и повышение достоверности при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований, удовлетворяющих требованиям полноты и простоты реализации.

Этот технический результат достигается тем, что в способе обработки изображений, включающем построение пирамиды описаний, деление изображений, выделение структурных элементов и связей, формируют слои описания изображения как системного целого, первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием, получаемым в результате отображения исходного изображения, разделенного на равные по площади области, полученным интегральным преобразованием, и выделяют структурные элементы и связи между компонентами вектора с образованием первого уровня пирамиды описаний, затем выделяют информационные подобласти внимания на анализируемом изображении с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания.

Исходное изображение делят на шестнадцать равных по площади областей, формируют шестнадцать слоев описания изображения, как системного целого, пятнадцатикомпонентным вектором градиентов, а структурные элементы, связи между компонентами вектора и подобласти внимания выделяют по двум типам алгебраических групп.

Предлагаемый способ заключается в следующем.

1. Все полутоновое видеоизображение, заданное в поле зрения (области определения G) М×N как множество координатно упорядоченных точек с яркостями {μn,m}, разбивается на 16 равных по площади областей {Gj}, каждой из которых ставится в соответствие матрица 4×4||mij|| "визуальных" масс

где индексы n, m перебираются по области Gj.

В результате реализуется интегральное преобразование, отображающее исходное изображение в абсолютно гладкое многообразие.

На матрице ||mij|| как множестве точек, упорядоченном в двумерном пространстве и образующем скалярное поле, выявляется 15 градиентных направлений (векторных полей Киллинга) типа ∂/∂хi, которым соответствует 15 булевых функций (16-я функция - групповая единица, соответствующая нулевому направлению) - эквивалентов дифференциаторов (фильтров Fi, реализующих соответствующее преобразование по всей области определения G) типа

где i - номер варианта (и номер градиентного направления) разбиения (дихотомии) области определения G изображения на равные по площади две подобласти, каждой из которых в силу отображения (1) ставится в соответствие своя визуальная масса. Нулевому направлению соответствует визуальная масса m0≡μ0 по всей области G.

В результате реализуется дифференциальное преобразование, обратное (1), образующее с ним полную систему преобразований и выявляющее на многообразии, где нет помех в их изначальном понимании относительно исходного изображения, точку - визуальную массу всего изображения (информационный и достоверный фактор наличия чего-либо на изображении), и 15 компонент вектора μ=(μ0, μ1, ..., μ15), каждая из которых с позиций римановой геометрии - касательный вектор к соответствующей интегральной кривой в многообразии. Поэтому 15 фильтров как покрытий исходного изображения выявляют "изобразительное" (информационное) описание этого изображения. Это описание достоверно, точно (ε-точно, точно с позиций вариационного подхода) с заданной разрешающей способностью и получено с помощью 16-и параллельно реализуемых преобразований (включая нулевое), формирующих послойное описание на первом уровне пирамидальной обработки, под которой понимается система с переменным разрешением. С позиций системы зрительного восприятия преобразованию (1) соответствует действие тонических нейронов, а (2) - фазических. Преобразованиям (2), представленным в декартовой системе координат двумерного пространства, соответствует 15 преобразований вида

где n, m=0, 1, 2, 3; n+m=k; k≤6.

которые являются функциями чувствительности в ряде Тейлора при решении задачи активной идентификации, а их реализация - функции Уолша системы Хармута. Поскольку для реализации преобразований (1), (2) требуются простейшие преобразования - сложение и вычитание, то описанный способ вычислительной простотой и полнотой в силу полноты системы градиентных преобразований (2) на плоскости.

2. Множеству компонент вектора μ=(μ1, ..., μ15) ставится в соответствие множество бинарных двумерных операторов Vi (i=1, 2, ..., 15), являющихся бинарным описанием исходного изображения на уровне алфавита при решении задач синтеза образа, эквивалентного наблюдаемому исходному изображению, и конструктивно совпадающими с соответствующими им фильтрами Fi, по правилу: если μi≠0, и μi>0, то имеем Vi если μi≠0, и μi>0, то имеем . Поэтому общее число операторов равно 15-и прямым и 15-и инверсным. Каждый оператор позволяет выделить подобласть внимания на анализируемом изображении, к которой можно применить процедуры (1), (2) послойного описания изображения на следующем уровне разрешения, а также является символом его описания на рассматриваемом уровне.

3. На множестве (прямых и инверсных) операторов {Vi} как алфавите формируются два типа алгебраических групп, выявляющих информационные связи между компонентами вектора μ. Первый тип алгебраической группы (полные группы) выявляет взаимные связи между тройкой компонент вектора по аналогии со взаимно-энергетическими связями спектральных компонент разложения (двумерного) сигнала. Правило образования полной группы Pni=(Vi Vj, Vk): переменные Vi, Vj, Vk принадлежат полной группе тогда и только тогда, когда их сумма - единица группы, в роли которой выступает оператор V0, соответствующий компоненте m0≡μ0. Описанием (изобразительным описанием на матрице 4×4, которая в данном случае называется планигоном) полной группы является произведение операторов, если число инверсий четно, и их сумма, если число инверсий нечетно. На множестве вариантов инверсий трех переменных общее число описаний для полной группы равно восьми, из которых четыре образованы на операции умножения, а четыре - операции сложения. Мощность множества полных групп равна 35.

Второй тип алгебраической группы (замкнутые группы) образованы на четырех переменных Рsi=(Vi, Vj, Vn, Vm) с описанием вида Рsi=ViVj+Vn+Vm, где число инверсных операторов должно быть нечетным. Число образов замкнутой группы, представленных на планигоне, на вариантах возможных инверсий равно восьми, а общее число замкнутых групп на множестве операторов равно 105. Правило образования замкнутой группы: четверка (Vi, Vj, Vn, Vm), где число инверсий операторов нечетно, образует замкнутую группу, если сумма операторов с учетом числа инверсий, - единица группы.

Любая замкнутая группа образована на паре полных групп при условии, если последние связаны общим оператором. Поэтому замкнутая группа, как более "крупное" образование, выявляет информационную связь над парой полных групп, входящих в ее состав.

С позиций системы зрительного восприятия, если множеству {Vi} соответствует множество нейронов, контролирующих свои рецепторные поля, то множеству полных групп - множество сложных нейронов, а множеству замкнутых групп - множество сверхсложных нейронов, образующих пирамидных клеток над зрительными полями.

Как полные, так и замкнутые группы на своих образах на планигоне как поле зрения позволяют выделять области внимания, к которым можно применить процедуры (1), (2) послойного описания изображения на следующем уровне разрешения. Одновременно использование элементов из множеств {Vi}, {Рni}, {Psi}, участвующих в иерархическом описании исходного изображения на заданном уровне разрешения, позволяют быстро (одномоментно, т.е. на малом числе признаков), просто и достоверно принимать решение, если в базе знаний находится эталонное описание на языке {Vi}, {Рni}, {Psi}.

Пример 1. Пусть изображение - множество яркостных точек (пикселей) μij, определенных в области G как поле зрения. Пусть система фильтров, реализующих (2), имеет вид по фиг.1 (квадратная форма фильтров условна и зависит от формы анализируемой области, а их структура может быть изменена с точностью до зеркального отображения на плоскости), где нумерация фильтров условна. Тогда каждый такой фильтр как покрытие изображения по всей области определения (на первом уровне пирамиды описаний такой областью является все поле зрения, на последующих уровнях - подобласти внимания) выявляет подобласти максимумов визуальной массы. Например, для фильтра F0 имеем

.

Если μ0=0, то в поле зрения отсутствуют какие-либо элементы изображения (получаем первый слой описания).

Для фильтра F1 поле зрения G делится на две равные по площади половины - левую G1 и правую G2, для которых находится первая компонента μ1 вектора μ

,

принадлежащая первому слою описания.

Если μ1=0, то слева и справа визуальные массы уравновешивают друг друга; если μ1>0, то слева сосредоточена большая визуальная масса; если μ1<0, то визуальная масса преобладает справа; если μ10,то все объекты изображения локализованы справа, а если |μ1|=μ0, то - слева.

Аналогична интерпретация действия остальных фильтров, которые выявляют пару структурных элементов на изображении и их структурную связь на пятнадцати независимых направлениях.

Для удобства реализации послойного описания на обычном компьютере допустимо предварительно разделить область G на шестнадцать равных по площади подобластей, для каждой из которых найти визуальную массу по (1) и оперировать с ними при формировании вектора μ.

Пример 2. Пусть объекты на изображении упорядочены и образуют некоторую структуру. Тогда каждый фильтр как покрытие позволяет выявить эту структуру сразу (одномоментно), если наблюдаемая структура соответствует структурной организации фильтра. Можно показать, что каждый фильтр, реализуя соответствующее дифференциальное преобразование, позволяет выявить свою интегральную кривую на абсолютно гладком многообразии, получаемом после реализации (1). На фиг.2 приведены примеры выявления структур и им соответствующих интегральных описаний.

Пример 3. Пусть изображение содержит некоторый объект, локализованный в первом квадранте области определения (фиг.3). Этому изображению соответствует матрица визуальных масс

,

покрывая которую системой фильтров (фиг.1) получаем вектор μ=(μ0, μ1, μ2, μ3, 0, ..., 0). Условие (μ1>0, μ2>0, μ3>0) при равенстве нулю остальных компонент вектора - это условие обнаружения области интереса в первом квадранте области определения изображения (в независимости от однородного фона в данном случае "нулевого"). Описанием этой области интереса является образ полной группы Рn=V1V2V3,.

Пример 4. Пусть выявлена область интереса (см. пример 3), в которой находится некоторый объект, например, знак А. Эту область интереса рассмотрим как новое изображение, т.е. относительно исходного изображения перейдем на следующий уровень пирамидальной обработки (фиг.4). Изображению соответствует матрица визуальных масс

и вектор μ=(μ2, 0, μ4, μ5, μ6, 0, μ8, 0, μ10, 0, 0, 0, μ14, 0), где |μ2|=|μ4|=μ56=|μ8|=|μ10|<<|μ14|. Компонентам вектора соответствуют операторы , , V5, V6, , , , из которых образуются структурные элементы описания наблюдаемого объекта - полная группа и замкнутая группа . Более того, условие |μ14|=max на множестве компонент вектора выделяет образ оператора как "универсальный" элемент типа выработанного эталона для вариантов написания знака А. Принимая описание объекта в виде Рn+Ps либо n, либо s за эталонное описание относительно просто решается задача распознавания данного объекта даже на фоне сильных помех (и частичного загораживания объекта), так как состав вектора (с учетом знаков компонент) достаточно устойчив, хотя абсолютные значения компонент меняются в зависимости от значений компонент матрицы визуальных масс. Данную устойчивость легко проверить экспериментально, так как соответствующая компьютерная программа реализации способа относительно проста.

Способ может быть реализован с использованием обычных компьютерных средств.

Таким образом, предлагаемое изобретение по сравнению с прототипом позволяет упростить способ обработки изображений за счет исключения построения двух пирамид и повысить достоверность при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований и системы алгебраических групп, удовлетворяющих требованиям полноты и простоты реализации.

Похожие патенты RU2322694C2

название год авторы номер документа
Способ распознавания объектов на изображении 2018
  • Тупиков Владимир Алексеевич
  • Павлова Валерия Анатольевна
  • Созинова Мария Владимировна
  • Крюков Сергей Николаевич
  • Каплинский Глеб Эдуардович
  • Бондаренко Владимир Александрович
  • Миронов Дмитрий Васильевич
RU2693267C1
УСТРОЙСТВО ПОИСКА ДУБЛИКАТОВ ИЗОБРАЖЕНИЙ 2013
  • Марчук Владимир Иванович
  • Воронин Вячеслав Владимирович
  • Письменскова Марина Михайловна
  • Морозова Татьяна Владимировна
RU2538319C1
СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЯ ОБЪЕКТА 1995
  • Кондратьев В.В.
  • Утробин В.А.
RU2116671C1
СПОСОБ И УСТРОЙСТВО ДЕТЕКТИРОВАНИЯ ЛОКАЛЬНЫХ ОСОБЕННОСТЕЙ НА ИЗОБРАЖЕНИИ 2013
  • Марчук Владимир Иванович
  • Воронин Вячеслав Владимирович
  • Морозова Татьяна Владимировна
  • Письменскова Марина Михайловна
RU2535184C2
СПОСОБ РАСПОЗНАВАНИЯ ОБЪЕКТОВ 2010
  • Вражнов Денис Александрович
  • Шаповалов Александр Васильевич
RU2438174C1
СПОСОБ РАСПОЗНАВАНИЯ КОНТЕНТНОГО СОДЕРЖАНИЯ СООБЩЕНИЙ ГРАФИЧЕСКИХ ФОРМАТОВ 2011
  • Замарин Александр Иванович
  • Сазонов Константин Викторович
RU2479028C2
СПОСОБ ВЫВОДА ИЗОБРАЖЕНИЯ С НАБОРОМ ВЫХОДНЫХ СЛОЕВ 2020
  • Чой Беондоо
  • Лю Шань
  • Венгер Штефан
RU2804274C1
Способ сигнализации набора выходных уровней с субизображением 2020
  • Чой Бёнду
  • Венгер Стефан
  • Лю Шань
RU2777924C1
СПОСОБ ОГРАНИЧЕНИЯ ССЫЛКИ НА НАБОР ПАРАМЕТРОВ В КОДИРОВАННОМ ПОТОКЕ ВИДЕО 2020
  • Чой Бёнду
  • Лю Шань
  • Венгер Стефан
RU2787213C1
СПОСОБ ССЫЛКИ И ОГРАНИЧЕНИЙ НА НАБОР ПАРАМЕТРОВ АДАПТАЦИИ В КОДИРОВАННОМ ВИДЕОПОТОКЕ 2020
  • Чой Бёнду
  • Лю Шань
  • Венгер Стефан
RU2787557C1

Иллюстрации к изобретению RU 2 322 694 C2

Реферат патента 2008 года СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЙ

Изобретение относится к способам обработки визуальной информации и может быть использовано в системах технического зрения при решении задач поиска, слежения, наведения, диагностирования и контроля. Технический результат заключается в упрощении способа обработки изображений за счет исключения построения пирамиды копий изображения и повышении достоверности при задаваемой точности полученных результатов описания изображения за счет введения системы преобразований, удовлетворяющих требованиям полноты и простоты реализации. Указанный результат достигается за счет того, что исходное изображение разбивают на равные по площади области, каждой из которых ставится в соответствие матрица "визуальных" масс, формируют слои описания изображения первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием. Выделяют структурные элементы и связи между компонентами упомянутого вектора с образованием первого уровня пирамиды описаний, выделяют информационные подобласти внимания на анализируемом изображении с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания. 1 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 322 694 C2

1. Способ обработки изображений, включающий построение пирамиды описаний, деление изображений, выделение структурных элементов и связей, отличающийся тем, что разбивают исходное изображение на равные по площади области Gj, каждой из которых ставится в соответствие матрица ||mij|| "визуальных" масс , где μn,m - яркость изображения, индексы n, m, перебираемые по области Gj, в результате реализуют отображение исходного изображения в абсолютно гладкое многообразие, формируют слои описания изображения, как системного целого, первого пирамидального уровня многокомпонентным вектором градиентов над абсолютно гладким многообразием, выделяют структурные элементы и связи между компонентами упомянутого вектора с образованием первого уровня пирамиды описаний, затем выделяют информационные подобласти внимания на анализируемом изображении, с повторным описанием подобласти внимания с использованием перечисленных действий для образования следующего уровня иерархии описания.2. Способ по п.1, отличающийся тем, что исходное изображение делят на шестнадцать равных по площади областей, формируют шестнадцать слоев описания изображения, как системного целого, пятнадцати компонентным вектором градиентов.

Документы, цитированные в отчете о поиске Патент 2008 года RU2322694C2

СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЯ ОБЪЕКТА 1995
  • Кондратьев В.В.
  • Утробин В.А.
RU2116671C1
Устройство для обработки изображений объектов 1984
  • Грицык Владимир Владимирович
  • Луцык Андрей Юлианович
  • Паленичка Роман Мирославович
SU1226500A1
US 6415053 B1, 02.07.2002
US 2005002566 A1, 06.01.2005.

RU 2 322 694 C2

Авторы

Утробин Владимир Александрович

Шевяков Сергей Борисович

Даты

2008-04-20Публикация

2006-03-09Подача