Способ распознавания и классификации объектов на изображении Российский патент 2025 года по МПК G06T7/00 G06F18/23 G06T7/11 

Описание патента на изобретение RU2836156C1

Изобретение относится к цифровой обработке изображений, а именно к способам распознавания и классификации плоских изображений по их форме, и может быть использовано в системах технического зрения.

Известен способ компьютерного распознавания объектов. Данный способ предусматривает предварительное приведение изображения объекта, вводимого в компьютер, к нормальному, стандартному для данного способа виду - изменение масштаба, поворот в требуемое положение, центрирование, вписание в прямоугольник требуемого размера. Технический результат достигается благодаря тому, что на экран монитора выводится изображение распознаваемого объекта, преобразованное в изображение, выполненное в градациях - различных степенях яркости одного цвета, например красного, и на него последовательно, поочередно накладываются изображения хранящихся в памяти компьютера шаблонов, выполненных, например, в градациях зеленого, что позволяет увидеть в зоне перекрытия изображений изображение другого, отличного от первых двух цветов, которое и фиксируется как распознанное в случае тождественных, идентичных, а значит имеющих одинаковый контур изображений распознаваемого объекта и шаблона (RU 2191431, МПК G06K 9/68, опубл. 20.10.2002).

Также известен способ автоматического распознавания объектов на изображении. В способе формируют и запоминают контурные эталонные и текущие изображения, представляют их в виде полутоновых дистантных изображений, где яркость пикселов пропорциональна расстоянию до ближайшего контура, выделяют на изображениях участки возможного наличия объекта сканированием контурным эталоном с подсчетом для каждого положения эталона суммы яркостей точек дистантного полутонового изображения, накрытых контурами эталона, оставляют точки, где суммы яркостей меньше заданного порога, на выбранных участках изображений вычисляют взаимно корреляционную функцию текущих и эталонных изображений, производят сравнение выделенных участков текущих изображений с эталонными полутоновыми дистантными изображениями этих участков, определяют положение эталона на выделенных участках, при котором достигается экстремум взаимно корреляционной функции, определяют место нахождения объекта по положению экстремума взаимно корреляционной функции (RU 2528140, МПК G06K 9/48, G06Т 7/40, опубл. 10.09.2014).

Известен способ поиска и распознавания объектов на цифровых изображениях, основанный на измерении энергетических спектров входного изображения и эталона, адаптивной пространственной фильтрации и пороговой обработке, при котором формируют матрицы из коэффициентов разложения энергетических спектров входного и эталонного изображений в двумерные ряды Фурье по косинусам, по полученным матрицам синтезируют дискретный двумерный фильтр и производят адаптивную пространственную дискретную фильтрацию входного изображения, сравнивают результат фильтрации с порогом, согласно изобретению входное изображение и изображение эталона предварительно обрабатывают детекторным полем, а апертуру фильтра согласуют с размерами эталона (RU 2718172 , МПК G06K 9/82, G06Т 17/14, G06Т 7/136, опубл. 30.03.2020).

Недостатком данных трех способов является то, что для распознавания образов объектов на изображении требуется иметь изображения эталонных объектов и заранее известное количество классов.

Известен способ, в котором определяют количество объектов на изображении магнитооптической структуры, в качестве морфологических признаков используют коэффициенты округлости и заполнения для каждого из объектов, формируют нечеткую базу знаний для разделения объектов на круглые, эллиптические и гантелеобразные с использованием треугольной функции принадлежности, а для некруглых полосовых и ветвистых объектов - с использованием трапециевидной функции принадлежности на основе экспериментальных данных значений указанных коэффициентов округлости и заполнения, проводят распознавание доменов, формируют нечеткий классификатор разделения объектов по форме на круглые, эллиптические, гантелеобразные, полосовые и ветвистые объекты на основе соотношения коэффициента округлости и коэффициента заполнения объекта, проводят классификацию формы объектов, описанном в патенте (RU 2522869, МПК G06K 9/66, G06Т 7/00, опубл. 20.05.2014).

Недостатком данного способа является то, что он позволяет распознавать образы объектов, имеющих только круглые, эллиптические, гантелеобразные, полосовые и ветвистые формы, и предназначен для решения задач в области распознавания изображений магнитооптических материалов, где имеются заранее известные классы объектов.

Наиболее близким аналогом к патентуемому является способ распознавания графических образов объектов на исходном изображении, представленном в цифровом виде в градациях серого, инвариантный к поворотам и масштабированию графических образов объектов на изображении, характеризуется предварительным формированием эталонных контуров и эталонных фрагментов контуров, выполнением предварительной обработки исходного изображения, выделением и замыканием контуров графических образов объектов исходного изображения, переводом полученных контуров из пространства координат растра в комплекснозначное пространство вектор-контуров, выполнением структурного анализа формы изображения фильтрами, используя вычисление значения модуля нормированного скалярного произведения и строя взаимно корреляционной функции контуров графических образов объектов исходного изображения и эталонных фрагментов контуров, при этом в качестве предварительно формируемых эталонных контуров используют «замкнутый квадрат», «замкнутый прямоугольник», «линия», «незамкнутый прямоугольник», «шум», а эталонных фрагментов контуров - «прямая линия», «прямой угол» (RU 2672622, МПК G06K 9/48, G06К 9/52, G06Т 7/44, опубл. 16.11.2018).

Однако данный способ не предусматривает классификацию изменяющихся по форме объектов на изображении, в том числе, когда классы имеют нечетко разделенные границы. Также способ позволяет распознавать только образы объектов, имеющих форму многоугольника.

Технический результат заключается в возможности классификации изменяющихся по форме объектов на изображении, в том числе при заранее не известном количестве классов.

Технический результат достигается за счет выделения контуров обособленных объектов, представления контура каждого объекта массивом из связанных точек, преобразования массива связанных точек в массив радиусов-векторов от геометрического центра объекта до точки контура, применения дискретного преобразования Фурье к массиву радиусов-векторов и выполнения кластеризации полученных значений амплитуд гармоник методом K-Means.

Сущность изобретения заключается в том, что способ распознавания и классификации объектов на изображении включает бинаризацию исходного изображения, выделение обособленных объектов, анализ морфологических признаков объектов и кластеризацию. Координаты обособленных объектов определяют с применением предварительно обученной сверточной нейронной сети, формируют массив радиусов-векторов от геометрического центра объекта до точек его контура, применяют быстрое дискретное преобразование Фурье к массиву радиусов-векторов и получают значения спектральных составляющих, используют значения спектральных составляющих в качестве морфологических признаков объекта, выполняют кластеризацию значений амплитуд спектральных составляющих методом K-Means при заданном количестве классов. При заранее неизвестном количестве классов на изображении, задают диапазон от минимального до максимального значения, вычисляют среднее значение метрики коэффициента силуэта объектов для каждого значения количества классов из заданного диапазона, определяют количество классов , при котором среднее значение метрики коэффициента силуэта принимает максимальное значение, выбирают оптимальное количество кластеров из диапазона .

На фиг.1 - исходное цветное изображение доменных структур магнитооптических материалов, содержащее круглые, овальные и гантелеобразные объекты (количество классов задано); на фиг.2 - изображение после бинаризации; на фиг.3 - результат применения метода разделения объектов на изображении на базе сверточной нейронной сети архитектуры YOLO; на фиг.4 - функция массива для круглых, овальных и гантелеобразных объектов; на фиг.5 - вид спектров функции для круглых, овальных и гантелеобразных объектов; на фиг.6 - результат вычисления величины .

Способ реализуется следующим образом. Входное изображение в формате RGB, содержащее конечное число замкнутых однородных по цвету объектов преобразуется в полутоновое и подвергается процедуре бинаризации: если яркость пикселя больше либо равно пороговой, то данному пикселю присваивается максимальное значение, иначе нулевое. В результате формируется изображение с черными объектами на белом фоне. Данное изображение обрабатывается предварительно обученной сверточной нейронной сетью на базе пакета Ultralytics, основанного на архитектуре YOLOv5 [1]. Выходными данными нейронной сети являются координаты прямоугольных областей, в которые вписаны обособленные объекты на изображении.

Далее выделяются контура обособленных объектов [2]. Формируется массив из связанных точек по правилу: если две точки имеют координаты и , то они являются соседними при условии

(1)

Затем массив преобразуется к виду , где - радиус-вектор от геометрического центра объекта до точки контура .

Массив подвергается дискретному преобразованию Фурье [3]. Результатом данной операции является спектр, представленный постоянной составляющей , равной среднему значению элементов массива и гармониками, составляющих контур объекта.

Если заранее определено количество классов для объектов на изображении, то проводится процедура кластеризации K-Means на основе алгоритма Ллойда [4]. В результате кластеризации каждый объект на изображении будет отнесен к определенному классу.

Если количество классов заранее неопределенно, то выполняется поэтапное применение метода K-Means с различным количеством искомых кластеров , где - предполагаемое минимальное количество кластеров, ; - предполагаемое максимальное количество кластеров; ( - множество натуральных чисел). Для каждого объекта на изображении при заданном значении вычисляется метрика коэффициента силуэта [5]:

(2)

где - номер объекта на изображении, , - количество объектов на изображении (); - среднее расстояние между объектом и всеми другими объектами, отнесенными к данному кластеру; - среднее расстояние между объектом и всеми другими объектами близлежащих кластеров.

Далее вычисляем среднее значение коэффициента силуэта объектов на изображении при заданном значении :

(3)

В результате получаем массив

Выбираем максимальное значение из массива

(4)

Определяем значение количества кластеров при котором получено значение .

Оптимальное количество кластеров выбирается из диапазона

(5)

Сущность патентуемого способа поясняется на фигурах 1-6 на примере задачи распознавания объектов на изображениях доменных структур магнитооптических материалов. Исходное цветное изображение доменных структур магнитооптических материалов, содержащее круглые, овальные и гантелеобразные объекты (фиг. 1) подвергается процедуре бинаризации (фиг. 2). На бинарном изображении с применением сверточной нейронной сети архитектуры YOLO определяются координаты прямоугольных областей, в которые вписаны обособленные объекты на изображении и выделяются их контура (фиг. 3). Рассчитывается массив радиусов-векторов от геометрического центра объекта до точки контура (фиг. 4). Полученный массив подвергается быстрому дискретному преобразованию Фурье, в результате получаются значения спектральных составляющих (фиг. 5), позволяющие классифицировать объекты методом K-Means. В случае заранее неизвестного количества классов определяется значение , в данном примере равно четырем (фиг. 6), и получается диапазон [3; 5] из которого выбирается количество кластеров.

Изобретение позволяет классифицировать изменяющихся по форме объектов на изображении, в том числе при заранее не известном количестве классов.

Литература:

1. (Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, (2016) «You Only Look Once: Unified, Real-Time Object Detection», doi: 10.1109/CVPR.2016.91).

2. (Satoshi Suzuki and others. Topological structural analysis of digitized binary images by border following. Computer Vision, Graphics, and Image Processing, 30 (1):32-46, 1985).

3. (Robert J. Marks II. Handbook of Fourier Analysis & Its Applications. - Oxford: Oxford University Press, 2008. - P. 744)

4. (Lloyd, Stuart P. (1982), «Least squares quantization in PCM», IEEE Transactions on Information Theory, 28 (2): 129-137, doi:10.1109/TIT.1982.1056489).

5. (Peter J. Rousseeuw (1987). «Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis», Computational and Applied Mathematics 20: 53 –65, doi:10.1016/0377-0427(87)90125-7):

Похожие патенты RU2836156C1

название год авторы номер документа
СПОСОБ РАСПОЗНАВАНИЯ И КЛАССИФИКАЦИИ ФОРМЫ ОБЪЕКТОВ В ЛАБИРИНТНЫХ ДОМЕННЫХ СТРУКТУРАХ 2012
  • Брагин Анатолий Валерьевич
  • Логунов Михаил Владимирович
  • Никитов Сергей Аполлонович
  • Пьянзин Денис Васильевич
  • Трифонов Андрей Александрович
RU2522869C2
СПОСОБ БИНАРИЗАЦИИ МЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ 2013
  • Чикало Олег Владимирович
RU2533876C2
СПОСОБ ДИАГНОСТИРОВАНИЯ КОМПЛЕКСА БОРТОВОГО ОБОРУДОВАНИЯ ВОЗДУШНЫХ СУДОВ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ БЕЗ УЧИТЕЛЯ С АВТОМАТИЧЕСКИМ ОПРЕДЕЛЕНИЕМ ПАРАМЕТРОВ ОБУЧЕНИЯ МОДЕЛЕЙ 2023
  • Букирёв Александр Сергеевич
RU2818858C1
УСТРОЙСТВО ТЕХНИЧЕСКОГО ДИАГНОСТИРОВАНИЯ КОМПЛЕКСА БОРТОВОГО ОБОРУДОВАНИЯ ВОЗДУШНЫХ СУДОВ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ 2024
  • Букирёв Александр Сергеевич
  • Савченко Андрей Юрьевич
  • Ипполитов Сергей Викторович
  • Азарной Роман Вячеславович
  • Крячков Вячеслав Николаевич
  • Железняков Артем Олегович
RU2831917C1
СПОСОБ ДИАГНОСТИРОВАНИЯ КОМПЛЕКСА БОРТОВОГО ОБОРУДОВАНИЯ ВОЗДУШНЫХ СУДОВ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2023
  • Букирёв Александр Сергеевич
  • Савченко Андрей Юрьевич
  • Ипполитов Сергей Викторович
  • Крячков Вячеслав Николаевич
  • Реснянский Сергей Николаевич
RU2816667C1
РАЗДЕЛЕНИЕ ИЗОБРАЖЕНИЙ НА ОБОСОБЛЕННЫЕ ЦВЕТОВЫЕ СЛОИ 2021
  • Загайнов Иван Германович
  • Михонов Вадим Хакимович
RU2792722C1
СПОСОБ ДИАГНОСТИРОВАНИЯ КОМПЛЕКСА БОРТОВОГО ОБОРУДОВАНИЯ ВОЗДУШНЫХ СУДОВ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ 2023
  • Букирёв Александр Сергеевич
  • Савченко Андрей Юрьевич
  • Ипполитов Сергей Викторович
  • Крячков Вячеслав Николаевич
  • Реснянский Сергей Николаевич
RU2809719C1
СПОСОБ ОБНАРУЖЕНИЯ И АВТОСОПРОВОЖДЕНИЯ ОБЪЕКТОВ ЦЕЛЕУКАЗАНИЯ ОПТИКО-ЭЛЕКТРОННОЙ СИСТЕМОЙ БЕСПИЛОТНОГО ЛЕТАТЕЛЬНОГО АППАРАТА 2020
  • Лупанчук Владимир Юрьевич
  • Чаровский Максим Александрович
  • Сергеев Юрий Алексеевич
  • Чаровская Екатерина Александровна
  • Нужненко Антон Сергеевич
  • Изосимов Артем Васильевич
RU2748763C1
СИСТЕМА И СПОСОБ ФОРМИРОВАНИЯ ОБУЧАЮЩЕГО НАБОРА ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2017
  • Лахман Константин Викторович
  • Чигорин Александр Александрович
  • Юрченко Виктор Сергеевич
RU2711125C2
СПОСОБ РЕНТГЕНОВСКОЙ ТОМОГРАФИИ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2012
  • Сырямкин Владимир Иванович
  • Буреев Артем Шамильевич
  • Васильев Александр Владимирович
  • Глушков Глеб Сергеевич
  • Богомолов Евгений Николаевич
  • Бразовский Василий Владимирович
  • Шидловский Станислав Викторович
  • Горбачев Сергей Викторович
  • Бородин Владимир Алексеевич
  • Осипов Артем Владимирович
  • Шидловский Виктор Станиславович
  • Осипов Юрий Мирзоевич
  • Осипов Олег Юрьевич
  • Ткач Александр Александрович
  • Повторев Владимир Михайлович
RU2505800C2

Иллюстрации к изобретению RU 2 836 156 C1

Реферат патента 2025 года Способ распознавания и классификации объектов на изображении

Изобретение относится к цифровой обработке изображений. Технический результат заключается в возможности классификации изменяющихся по форме объектов на изображении, в том числе при заранее не известном количестве классов. Способ распознавания и классификации объектов на изображении включает бинаризацию исходного изображения, выделение обособленных объектов, анализ морфологических признаков объектов и кластеризацию. Координаты обособленных объектов определяют с применением предварительно обученной сверточной нейронной сети, формируют массив радиусов-векторов от геометрического центра объекта до точек его контура, применяют быстрое дискретное преобразование Фурье к массиву радиусов-векторов и получают значения спектральных составляющих, используют значения спектральных составляющих в качестве морфологических признаков объекта, выполняют кластеризацию значений амплитуд спектральных составляющих методом K-Means при заданном количестве классов. При заранее неизвестном количестве классов на изображении задают диапазон, вычисляют среднее значение метрики коэффициента силуэта объектов для каждого значения количества классов из заданного диапазона, определяют количество классов, выбирают оптимальное количество кластеров. 6 ил.

Формула изобретения RU 2 836 156 C1

Способ распознавания и классификации объектов на изображении, включающий бинаризацию исходного изображения, выделение обособленных объектов, анализ морфологических признаков объектов и кластеризацию, отличающийся тем, что определяют координаты обособленных объектов с применением предварительно обученной свёрточной нейронной сети, формируют массив радиусов-векторов от геометрического центра объекта до точек его контура, применяют быстрое дискретное преобразование Фурье к массиву радиусов-векторов и получают значения спектральных составляющих, используют значения спектральных составляющих в качестве морфологических признаков объекта, при заранее не известном количестве классов задают диапазон количества классов от минимального до максимального значения, вычисляют среднее значение метрики коэффициента силуэта объектов для каждого значения количества классов из заданного диапазона, определяют количество классов kSmax, при котором среднее значение метрики коэффициента силуэта принимает максимальное значение, выбирают оптимальное количество кластеров из диапазона kSmax±1, далее при найденном количестве классов выполняют кластеризацию значений амплитуд спектральных составляющих методом K-Means.

Документы, цитированные в отчете о поиске Патент 2025 года RU2836156C1

CN 108376400 A (UNIV SOUTH CHINA TECH UNIV SOUTH CHINA TECH SOUTH CHINA UNIVERSITY OF TECHNOLOGY), 07.08.2018
Yaohai Lin и др
Очаг для массовой варки пищи, выпечки хлеба и кипячения воды 1921
  • Богач Б.И.
SU4A1
Кран машиниста для автоматических тормозов с сжатым воздухом 1921
  • Казанцев Ф.П.
SU194A1
Видоизменение пишущей машины для тюркско-арабского шрифта 1923
  • Мадьяров А.
  • Туганов Т.
SU25A1

RU 2 836 156 C1

Авторы

Пьянзин Денис Васильевич

Воронков Антон Александрович

Аксенов Никита Сергеевич

Даты

2025-03-11Публикация

2024-05-02Подача