Область техники
Изобретение относится к области обработки аэрокосмических цифровых изображений местности, а именно к анализу изображений с помощью интеллектуальных технологий распознавания объектов различных классов, способных заменить человека-оператора при решении задач по дешифрированию видовой аэрокосмической информации объектов, в частности, авиационной и сухопутной техники, на изображениях, полученных при аэрофотосъемке в видимом диапазоне длин волн.
Уровень техники
Для решения задачи обнаружения, локализации и классификации используются полносверточные нейронные сети глубокого обучения. Известные современные алгоритмы (U-Net [1-3], YOLOv3 [4]), используемые в решении задач обнаружения, локализации и классификации объектов, достигают высоких показателей качества на открытых наборах данных, таких как COCO и ImageNet, однако обладают особенностями, снижающими показатели качества при работе со специфическими данными типа объекты авиационной и сухопутной техники. Одной из важнейших особенностей является то, что известные популярные алгоритмы оптимизированы для объектов, занимающих большую часть кадра, поскольку открытые наборы данных включают в основном повседневные фотографии с разметкой объектов.
Существуют решения, основанные на полносверточных нейронных сетях, которые выполняют задачу поиска объектов интереса (самолеты, танки) на спутниковых снимках в гипервысоком разрешении, при котором площадь (протяженность) объекта распознавания составляет значительное число пикселей [5], так как на снимках с гипервысоким разрешением размер объекта в пикселах будет достаточно велик, и контуры объекта будут четко определены. Известные решения обеспечивают решение задачи распознавания без учета контекста, окружающего объект. Для успешного обнаружения и классификации военной техники на аэрокосмических снимках, имеющих низкое разрешение крайне важен учет контекста. Под контекстом в данном случае понимается общее содержание изображения, исходя из которого возможно понять, какие объекты находятся на снимке. Достоверное обнаружение объекта интереса при его изображении размером в несколько пикселей на снимке без учета его окружения невозможно. Окружающий фон позволяет делать предположения о возможном наличии на изображении объектов интереса и осуществлять поиск объектов, основываясь на предварительных выводах.
Кроме того, на аэрокосмических изображениях могут встречаться не только одиночные объекты, но и группы объектов одного типа, близко расположенных друг к другу, что также затрудняет автоматическое решение задачи локализации, сегментации и классификации, при этом требуется обеспечивать их надежное разрешение, раздельную локализацию и классификацию. Существующие решения на базе полносверточных сетей на выходной карте отклика формируют на таких фоно-целевых обстановках пятно, на котором отдельные экземпляры авиационной и сухопутной техники не разрешимы.
Известные решения [6, 7] позволяют осуществлять обнаружение, локализацию и классификацию объектов при высокой средней плотности объектов на изображениях, составляющей более десяти объектов на один квадратный километр.
При меньшем показателе плотности объектов метрика качества дешифрирования изображений существенно снижается. Низкая плотность объектов интереса на изображениях увеличивает риск возникновения числа ложноположительных откликов.
Другим недостатком существующих методов решения задачи с помощью определения ориентации объекта на основе оси симметрии является высокая вычислительная сложность. Наивный перебор пар граничных точек со сравниванием в некоторой мере сходства двух половин фигуры для поиска оси симметрии имеет кубическую сложность по числу граничных точек [13].
Раскрытие сущности изобретения
Задачей, на решение которой направлено заявляемое изобретение, является создание программно-аппаратного комплекса для обработки аэрокосмических снимков местности в видимом диапазоне длин волн с целью обнаружения, локализации и классификации объектов до типа авиационной и сухопутной техники (ПАК).
Техническим результатом является создание ПАК, который обеспечивает повышение точности автоматического обнаружения, локализации и классификации до типа авиационной и сухопутной техники малых объектов на крупноформатных аэрокосмических изображениях местности видимого диапазона, повышение точности обнаружения и локализации объектов при низкой плотности объектов интереса на изображении, повышение точности определения положения и выделения сложных объектов интереса на фоне, повышение точности обнаружения, локализации и классификации объектов, находящихся в близко расположенных группах, повышение точности анализа формы выделенных объектов и определения класса обнаруженных объектов до точности максимально приближенной к качеству человека-оператора.
Основные операции процесса:
- обнаружение и локализация на аэрокосмических снимках в видимом диапазоне длин волн авиационной и сухопутной техники;
- классификация результатов работы алгоритма обнаружения и локализации до типа объектов авиационной техники;
- классификация результатов работы алгоритма обнаружения и локализации до типа объектов сухопутной техники.
Определим следующие термины.
Объект/Объект распознавания - пространственно-ограниченный объект на изображении, представляющий интерес для конечного пользователя алгоритмов автоматического обнаружения, локализации и классификации.
Координаты объекта - координаты визуального центра объекта на изображении в растровой системе координат изображения в прямоугольной декартовой системе координат, начало координат находится в левом верхнем углу изображения.
Ориентация объекта - угол в радианах между вектором визуального направления передней части объекта (техники) и ортом оси абсцисс в растровой системе координат изображения. Угол отсчитывается против часовой стрелки и находится в диапазоне от 0 до 2π радиан.
Классификация - построение списка вероятностей принадлежности обнаруженного и локализованного объекта к определенным типам объектов.
Тип объекта - подмножество вида объекта (множество объектов распознавания, представляющее интерес для конечного пользователя). Вид объектов разбит на типы: каждый объект распознавания принадлежит ровно одному типу.
Компактная группа близко расположенных объектов - группа, состоящая из не менее трех объектов, в которых расстояния между объектами группы не превышают заданного параметра а, или можно выделить два перпендикулярных направления, вдоль которых расположены все отрезки, соединяющие соседние объекты.
Сущность предлагаемого программно-аппаратного комплекса предназначенного для обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной или сухопутной техники, заключается в том, что обработка аэрокосмических изображений местности в видимом диапазоне проводится с помощью следующих блоков обработки аэрокосмических изображений (см. фиг. 1): Блок подготовки эталонных изображений 1, Блок обнаружения и локализации 2, Блок определения и ориентации 3, Блок сегментации 4, Блок классификации 5, Вывод результатов 6, причем предлагаемый программно-аппаратный комплекс обеспечивает возможность обнаружения, локализации и классификации на аэрокосмических снимках объектов интереса, имеющих малую площадь (протяженность, то есть линейный размер объекта от 10 до 20 пикселей при общей площади снимка 20 млн. пикселей и более); обеспечивает раздельную локализацию и классификацию объектов, находящихся в близко расположенных компактных группах, при этом используются подходы AutoML (https://www.automl.org) для формирования оптимальной архитектуры нейронной сети, при этом полученная архитектура нейронной сети позволяет уменьшить вычислительную сложность нейросети при сохранении целевой метрики качества, с возможностью обработки большего количества информации в единицу времени.
Формирование оптимальной архитектуры нейронной сети происходит с постепенным усложнением архитектуры нейросети и сохранением весов обученных нейронов, с возможностью использования архитектуры нейронной сети, состоящей из нескольких веток, обрабатывающих контекстную информацию разных масштабов. Иллюстрация возможности усложнения архитектуры нейронной сети в зависимости от содержания входного изображения представлена на фиг. 2.
При распознавании на крупноформатных изображениях малых объектов, расположенных в компактных группах, обнаружение, локализация и классификация объектов на изображениях осуществляется на основе формирования оптимального маршрута просмотра изображения, при построении которого могут быть использованы две стратегии: в первую очередь обрабатываются участки изображения, на которых наиболее вероятно нахождение объектов интереса, или в первую очередь обрабатываются объекты, анализ которых наиболее востребован экспертом.
На первом этапе обработки изображения используется нейронная сеть, определяющая координаты пикселей, являющихся центрами объектов интереса.
На втором этапе обработки изображения определяются объекты, составляющие группы, с дальнейшей локализацией и классификацией всех найденных групп, при этом осуществляется построение графа соседства объектов на изображении на основе триангуляции Делоне [11], для выявления регулярных структур используется анализ длины ребер в графе соседства и выделение цепочек смежных ребер одинаковой ориентации в следующем порядке:
1. Для решения задачи локализации групп объектов на аэрокосмическом снимке выполняется построение триангуляции Делоне для точек из множества X, которые являются ответами нейронной сети по поиску одиночных объектов. Получим планарный граф G, содержащий в качестве вершин все точки из множества X и обладающий свойством, что каждое его ребро является диаметром соответствующей окружности, внутри которой не лежат другие вершины графа.
2. Поскольку ребра графа Делоне могут быть сколь угодно длинными при произвольном расположении точек множества X, из графа удаляются ребра, длина которых превышает фиксированное заранее заданное значение L. Полученная совокупность М не связанных между собой компонент является компактной расположенным подмножеством S∈X с параметром L.
3. Для решения задачи классификации рассматриваются только компоненты, количество вершин в которых больше некоторого заданного порога Т.
4. Для определения групп объектов используется один из критериев множества с особым геометрическим расположением элементов.
Критерий 1. Множество компактно расположенных точек считается множеством с особым геометрическим расположением элементов, если отрезки, соединяющие соседние точки этого множества, имеют близкие направления, попадающие в сектор с заданной оператором угловой величиной α.
Критерий 2. Множество компактно расположенных точек считается множеством с особым геометрическим расположением элементов, если эти точки расположены на плоскости в виде двумерной прямоугольной решетки, то есть, если в нем можно выделить два перпендикулярных направления, вдоль которых расположены все отрезки, соединяющие соседние точки.
Некоторые подзадачи (фрагменты функционирования) блоков 2-5 рассматриваются в [12].
Для обнаружения, локализации и классификации используется многомасштабная архитектура глубоких сверточных сетей. Нейросетевой алгоритм обрабатывает космический снимок в трех масштабах:
1. Масштаб типа местности подстилающей поверхности.
2. Масштаб взаимного расположения объектов техники, с учетом расположения объектов на местах базирования.
3. Масштаб одиночных объектов военной техники.
Образец обработки аэрофотоснимка в нескольких масштабах представлен на фиг. 3. Цветом на изображениях фиг. 3, расположенных под фрагментами аэрофотоснимка выделяются области для упрощения и ускорения работы эксперта. Обработка на крупном масштабе местности позволяет осуществлять сегментацию поверхности земли на области плотной застройки, пустыни, поля, искусственно подготовленная поверхность, леса, вода. Эти области и имеют различные, выбранные цвета на фиг. 3 (1). Информация о типе подстилающей поверхности используется как априорная информация о наиболее вероятных для данной местности типах техники.
Обработка в масштабе взаимного расположения дает дополнительную информацию о возможном типе объектов исходя из типа и взаимной ориентации соседних объектов военной техники. На местах базирования однотипные объекты военной техники часто образуют ряды. При подготовке к операции, возле одного объекта военной техники располагаются единицы обслуживающей техники (для заправки, заряжания). Помимо улучшения качества решения задачи обнаружения и локализации данная информация представляет самостоятельную ценность для последующего анализа ситуации. Боевой порядок также дает дополнительную априорную информацию о возможных типах расположенной по соседству техники (фиг. 3 (2)).
Обработка на масштабе одиночных объектов позволяет выявить одиночные объекты на изображениях (фиг. 3 (3)).
В Блоке обнаружения и локализации 2 осуществляется дешифрирование изображений. Процедура дешифрирования крупноформатных изображений требует оптимизации обработки. Для оптимизации используется построение рационального маршрута просмотра изображения. Выбор оптимального маршрута просмотра может быть осуществлен с учетом следующих стратегий:
- в первую очередь обрабатываются участки изображения, на которых наиболее вероятно нахождение объектов интереса;
- в первую очередь обрабатываются объекты, анализ которых экспертом наиболее востребован. Эксперт может выделить участки изображения, на которых, по его мнению, расположены объекты интереса.
В обеих стратегиях при построении маршрута просмотра изображения учитывается взаимное расположение объектов для исключения хаотических перемещений, при этом для дешифрирования выбираются участки изображения, на которых, судя по взаимному расположению объектов, наиболее вероятно нахождение объектов интереса. Пример выбора оптимального маршрута просмотра экспертом представлен на фиг. 4. Последовательность просмотра выбранных участков обозначена цифрами.
Для реализации операций обнаружения и локализации в Блоке обнаружения и локализации 2 используется алгоритм на основе полносверточной нейронной сети ResNet, при этом обеспечивается возможность использования динамического глубинного анализа отрицательных примеров для введения в функцию потерь коэффициента, балансирующего объекты интереса и фон, для повышения точности обнаружения и локализации объектов на аэрокосмических изображениях при низкой плотности объектов интереса на аэрокосмических изображениях, составляющей менее одного объекта на квадратный километр.
В Блоке определения и ориентации 3 осуществляется определение ориентации обнаруженных объектов. Основными задачами определения ориентации являются:
- первичное определение ориентации объектов по результатам работы алгоритма детектирования и сегментации объектов;
- разворот найденных объектов носом на север (вверх) для удобства визуализации и дальнейшей обработки);
- выявление и исправление ошибок в определении ориентации объектов.
Схема работы Блока определения и ориентации представлена на фиг. 5.
Основным подходом к решению задачи является вычисление оси симметрии объекта для чего используется вычисление квадратичной по количеству точек в контуре меры ассиметричности определения оси симметрии, снижающее вычислительную сложность. Для решения задачи используется вычисление оси симметрии объекта с помощью количественного показателя симметричности объекта, основанного на дескрипторах Фурье. Образцы определения ориентации авиационной техники на основе вычисления оси симметрии представлены на фиг. 6. Образцы на фиг. 6 упорядочены по степени уменьшения симметричности.
В Блоке сегментации 4 осуществляется выделение сложных объектов интереса на фоне для дальнейшего анализа формы этих объектов.
Используется архитектура нейронной сети со сверточной и разверточной частями соединенных между собой «бутылочным» горлышком, вынуждающим сверточную часть формировать сжатое представление, и дополнительными соединениями между сверточной и разверточной частями, передающими информацию с более высоким пространственным разрешением, с использованием модифицированной функции потерь, придающей больший вес пикселям, соседним с границей маски. На вход подается изображение в видимом диапазоне волн в оттенках серого с фоном, на котором присутствуют объект интереса. На выходе получается бинарная маска, отделяющая объект интереса от фона.
Бинарная маска объекта поворачивается носом на север (вверх) и передается в Блок классификации 5, в котором используется комбинированный алгоритм с использованием нейронных сетей и морфологические методы анализа формы для классификации объектов, включая контурную меру сходства, скелетную меру сходства, площадную меру сходства [12].
Образец классификации по контурной мере сходства представлен на фиг. 7.
Для классификации с помощью скелетной меры сходства используется непрерывная морфологическая модель объекта в виде полигональной границы и скелета, представляющая собой геометрический граф и радиальную функцию, описывающую ширину объекта.
Образец исходного изображения и «скелета» представлен на фиг. 8.
Образец совмещения «скелетов» представлен на фиг. 9.
Площадная мера сходства двух сравниваемых образов определяется отношением площади пересечения к площади объединения.
Визуально площадная мера сходства схематично показана на фиг. 10, где В1, В2 - условно показаны образы объектов, площадь их пересечения (Intersection) и площадь их объединения (Union), площадная мера сходства (IoU) - их отношение.
Образец классификации на основе площадной меры сходства представлен на фиг. 11, где число в левом нижнем углу каждого изображения - величина площадной меры сходства эталона и бинарной маски обнаруженного объекта.
Для решения задачи обнаружения и локализации используется алгоритм на основе полносверточной нейронной сети. На вход Блока обнаружения и локализации подается нормированный фрагмент оригинального изображения аэрофотосъемки видимого диапазона, на выходе получается тепловая карта наличия объектов авиационной и сухопутной техники. Цвет каждого элемента тепловой карты соответствует степени уверенности алгоритма в том, что в области входного изображения, соответствующей этому элементу, находится объект интереса.
Для решения задачи обнаружения и локализации используется метод динамического глубинного анализа отрицательных примеров, заключающийся во введении в функцию потерь коэффициента, балансирующего объекты интереса и фон. Применение данного метода позволяет снизить число ложноположительных и ложноотрицательных откликов нейросети при анализе аэрокосмических снимков с низкой плотностью объектов, составляющей менее одного объекта на квадратный километр. Относительно высокие значения ответов нейросети получают большее значение коэффициента, относительно низкие значения ответов нейросети получают меньшее значение коэффициента. Для определения относительно высоких ответов нейросети используется адаптивный порог Ниблака [8].
В Блоке сегментации 4 используется архитектура нейронной сети со сверточной и разверточной частями, с соединением, обеспечивающим формирование сверточной частью эффективного сжатого представления, и дополнительными соединениями между сверточной и разверточной частями, передающими информацию с более высоким пространственным разрешением.
Используется модифицированная функция потерь, придающая больший вес пикселям, находящимся рядом с границей маски.
Для реализации операции классификации используется алгоритм на основе архитектуры нейронной сети NASNet, отличающаяся от NASNet тем, что изменены методы поиска оптимальной сети, что обеспечивает возможность работы с обширными массивами информации, а также используется комбинированный алгоритм с использованием нейронных сетей и морфологических методов анализа формы для классификации объектов. Для поиска оптимальной сети используются подходы AutoML, что обеспечивает возможность формирования оптимальной архитектуры нейронной сети, при этом полученная оптимальная архитектура нейронной сети позволяет уменьшить вычислительную сложность нейросети при сохранении целевой метрики качества, с возможностью обработки большего количества информации в единицу времени.
В результате работы на выходе получается список координат центров или ограничивающих прямоугольников всех объектов интереса, присутствующих на изображении, идентификатор вида объекта, и показатель ранжирования для данного вида авиационной или сухопутной техники. Показатель ранжирования - вещественное неотрицательное число, отражающее уверенность алгоритма обнаружения в принадлежности обнаруженного кандидата к объектам распознавания заданного вида.
В соответствии с другим вариантом выполнения настоящего изобретения для решения задачи определения ориентации используется вычисление оси симметрии объекта с помощью количественного показателя симметричности объекта, основанного на дескрипторах Фурье [9], с новым способом численной оценки симметричности. Вводится величина, характеризующая ассиметричность контура U:
где а - дескриптор Фурье контура U, состоящего из n точек, α - угол наклона оси симметрии, проходящей через точку up контура U, - число позиций сдвига контура - смещения всех точек контура на некоторую величину с целью нахождения оси симметрии контура объекта.
Фигура считается симметричной, если величина Q для этой фигуры не превышает эмпирически заданного порога. Предложенный метод вычисления меры ассиметричности определения оси симметрии является квадратичным по количеству точек в контуре.
Бинарная маска объекта поворачивается носом на север (вверх) и передается на алгоритм классификации, построенный на непрерывных морфологических моделях.
Блок классификации 5 выполнен с возможностью использования комбинированного алгоритма с использованием нейронных сетей и морфологических методов анализа формы для классификации объектов, включая контурную меру сходства, скелетную меру сходства, площадную меру сходства, обеспечивающих возможность повышения эффективности классификации объектов в условиях малых обучающих выборок и наличия классов объектов, не имеющих обучающей выборки. Преимуществом морфологического подхода перед нейросевым является то, что для успешной классификации достаточно двумерного чертежа или эскиза объекта и не требуется сбора обучающей выборки.
Осуществляется генерация признакового описания объекта, выделяются топологические и геометрические признаки. Для решения поставленной задачи осуществляется подготовка базы векторных эталонов по всем типам объектов. Отбор эталонов-кандидатов для классификации объектов проводится по геометрическим и топологическим признакам. Топологические признаки объекта представляют собой число узловых и терминальных вершин графа. Геометрическими признаками являются размеры графа и отдельных ветвей, ширина ветвей, ориентация ветвей относительно оси. Условие выбора m-го эталонного изображения в качестве допустимого кандидата
um-Δ≤v≤um+Δ,
где v - вектор признаков образца, v∈V, um - вектор признаков m-го эталона, um∈V, m=1, …, М, М - число эталонных изображений, Δ - допустимый уровень вариации изменений признаков для образцов, V - пространство топологических и геометрических признаков (число узловых и терминальных вершин скелетного графа, размеры графа и отдельных ветвей, ширина ветвей).
Описание формы объекта осуществляется с помощью скелетного графа (срединные оси) и функции ширины (радиусы вписанных контуров). Скелет объекта представляется в виде множества центров максимальных окружностей, вписанных в контур объекта. Для решения задачи классификации используется архитектура, основанная на NASNet [10], отличающаяся от NASNet тем, что изменены методы поиска оптимальной сети, что обеспечивает возможность работы с обширными массивами информации, а также используется комбинированный алгоритм с использованием нейронных сетей и морфологических методов анализа формы для классификации объектов. Решение задачи классификации состоит в вычислении меры близости представленного объекта с эталонными экземплярами и выборе наилучшего сходства. Отбор кандидатов проводится по следующим мерам сходства: контурная мера - доля границы эталона, лежащая вблизи границы образца, скелетная мера - доля скелета эталона, лежащая вблизи скелета образца, площадная мера - доля площади эталона, лежащая вблизи площади образца.
На первом этапе вычисляется контурная мера сходства, определяемая формулой:
где X - граница образца (замкнутый контур), Y - граница эталона (замкнутый контур), d(x,X) - расстояние от точки границы эталона у∈Y до границы образца X, - гауссиан с параметром σ (σ принимает значения от 2 до 4 пикселей), L(Y) - длина контура границы эталона, Dк(X, Y) - контурная мера сходства образца X с эталоном Y.
Контурная мера сходства двух сравниваемых контуров представляет величину в интервале [0…1]. Значение единица соответствует полному (идеальному) совпадению двух граничных линий. Значение ноль говорит об абсолютном отсутствии каких-либо пересечений между сравниваемыми контурами.
На втором этапе используется скелетная мера сходства
где X - скелет предъявляемого образа (плоский прямолинейный граф), Y - скелет эталона (плоский прямолинейный граф), d(y,X)=z - расстояние от точки скелета эталона у∈Y до скелета объекта X, - гауссиан с параметром σ (σ принимает значения от 2 до 4 пикселей), L(Y) - суммарная длина ребер скелета эталона, Dc(X, Y) - скелетная мера сходства объекта X с эталоном Y.
Эталонный скелет представляет собой векторную геометрическую модель набора вершин и списка ребер, позволяющую эффективно осуществлять весь спектр аффинных преобразований. Величина сходства двух скелетов принимает значение из интервала [0…1]. Значение единица соответствует стопроцентному совпадению двух сравниваемых скелетных графов. Диаметральное нулевое значение указывает на абсолютное несовпадение (отсутствие любых пересечений) скелетов эталона и объекта.
Форма скелета чувствительна к небольшим изменениям и деформациям границы объектов. Поэтому, визуально схожие образы могут иметь различающиеся скелетные графы. В данном случае мера сходства предъявляемого и эталонного образов численно не будет соответствовать максимальному совпадению. Для разрешения данной проблемы используется искусственное увеличение ширины ветвей эталонных скелетных графов, за счет чего создается дополнительная область для совмещаемых скелетов, численно увеличивающая меру сходства.
На третьем этапе используется площадная мера сходства
где X - фигура предъявляемого объекта (многоугольник), Y - фигура эталона(многоугольник), Intersection(X, Y) - пересечение многоугольников X и Y, Union(X, Y) - объединение многоугольников X и Y, Area() - площадь фигуры, Dп(X, Y) - площадная мера сходства объекта X с эталоном Y.
Площадная величина сходства двух сравниваемых образов определяется отношением площади пересечения к площади объединения и принимает значение из интервала [0…1]. Значение единица соответствует стопроцентному (идеальному) совпадению фигур. Диаметральное нулевое значение указывает на абсолютное несовпадение (отсутствие любых пересечений) многоугольников образов. Для рассматриваемой задачи сравнения образцов необходимо среди всего множества эталонных образцов выбрать тот, который даст максимальный отклик описанной метрики при совмещении двух силуэтов.
Применение комбинированного алгоритма классификации объектов с использованием нейросетевых и морфологических алгоритмов анализа формы, обеспечивает возможность повышения эффективности классификации объектов в условиях малых обучающих выборок и наличия классов объектов, не имеющих обучающей выборки.
Осуществление изобретения
Схему работы программно-аппаратного комплекса поясняет фиг. 1. Программно-аппаратный комплекс, предназначенный для обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной или сухопутной техники включает следующие блоки: Блок подготовки эталонных изображений 1, Блок обнаружения и локализации 2, Блок определения и ориентации 3, Блок сегментации 4, Блок классификации 5, Вывод результатов 6.
Аппаратная платформа для эксплуатации программно-аппаратного комплекса включает вычислительный комплекс со следующими или аналогичными характеристиками:
- операционная система: Linux Ubuntu.
- два монитора 21'', со входом HDMI;
- процессор Intel Core i7 5930K;
- не менее 4 видеокарт NVIDIA GeForce 1080Ti;
- не менее 64 ГБ оперативной памяти;
- не менее 10 ТБ доступного места на жестких дисках.
В данной конфигурации аппаратной платформы особенностью является присутствие 4 (или более) видеокарт с соответствующим изменением функций использования их оперативной памяти в качестве устройства, производящего параллельные векторные и матричные перемножения в процессе работы алгоритмов, что значительно ускоряет работу выбранной аппаратной платформы по сравнению со стандартной конфигурацией компьютера.
Программная часть программно-аппаратного комплекса реализуется на языке высокого уровня Python. Как основа, для реализации операций всех процессов используются библиотеки Tensorflow (TensorFlow - открытая программная библиотека для машинного обучения, разработанная компанией Google для решения задач построения и тренировки нейронной сети с целью автоматического нахождения и классификации образов) и Keras (это библиотека глубокого обучения, представляющая из себя высокоуровневый API, написанный на языке программирования Python). Для сохранения истории изменений программного обеспечения используется программа контроля версий для машинного обучения Data Version Control (DVC).
Функционал программно-аппаратного комплекса доступен через web-интерфейс, используя один из браузеров, например, Internet Explorer, Chrome, Mozilla Firefox или другой.
Web-интерфейс имеет следующие разделы:
- загрузка изображений;
- авиационные объекты;
обработка изображений;
веса;
- сухопутные объекты;
обработка изображений;
веса;
- настройки;
- обучение;
- текущие задачи.
Страница «Загрузка изображений» является общей страницей программно- аппаратного комплекса для загрузки изображений с удаленных компьютеров или USB-накопителя.
На странице «Загрузка изображений» отображается список всех внешних накопителей информации, подключенных к программно-аппаратному комплексу, и папок на них до 3 уровня вложенности.
На странице «Загрузка изображений» обеспечивается возможность загрузки ZIP архива через стандартный диалог загрузки файлов в браузере.
На странице «Обработка изображений» осуществляется запуск нейронной сети для обработки загруженных одиночных изображений.
После выполнения обработки на странице «Обработка изображений» отображаются результаты обработки и кнопка для расчета метрик.
В результате обработки обеспечивается визуализация входного изображения и результаты локализации рамками на данном изображении, а также визуализация соответствующего типа объекта текстом.
Координаты обнаруженных объектов выдаются в системе координат, идентичной используемой во входном изображении.
На странице «Веса» отображается список всех нейросетевых моделей алгоритмов обнаружения.
На странице «Настройки» обеспечивается возможность формирования рационального маршрута просмотра снимка оператором с учетом значений вероятности обнаруженных объектов.
На странице «Текущие задачи» отображаются текущие, а также будущие и выполненные задачи:
- копирование с USB-накопителя;
- обработка изображений алгоритмом обнаружения и локализации;
- обработка изображений алгоритмом классификации.
Для текущих и будущих задач обеспечивается возможность отмены выполнения. Для завершенных задач обеспечивается возможность просмотра результата.
Изначально в Блоке подготовки эталонных изображений (фиг. 12) оператором-экспертом 7 осуществляется подготовка базы (векторных) эталонных изображений по всем типам объектов. Подготовка эталонных изображений состоит в построении контурного описания 8 для всех типов объектов. Исходными данными являются образцы объектов в виде растровых бинарных изображений высокого разрешения 9, которые могут быть получены из фотографий с высоким разрешением, или из описаний технической документации (чертежей или схем объекта) 10. В результате обработки этих изображений формируются эталонные описания формы объекта интереса в виде бинарного (черно-белого) изображения высокого разрешения 9, а затем создается контурное описание формы объекта интереса в векторном формате изображения в виде многоугольной фигуры 8. Контурные описания формы объекта в векторном формате изображения являются эталонными изображениями (шаблонами) и используются для формирования библиотеки эталонных изображений (шаблонов) 11. Подготовка изображений осуществляется исходя из следующих особенностей конструкции объектов:
1. у отдельных объектов имеются модификации, изменяющие их геометрию;
2. наличие у отдельных самолетов вертикального взлета и посадки;
3. сухопутная техника имеет гусеничный или колесный ход;
4. у отдельных объектов авиационной техники имеется изменяющаяся геометрия крыла (подвижное крыло);
5. большинство объектов палубной авиации имеют парковочное положение, при котором крылья частично складываются (это также меняет геометрию объекта);
6. отдельные вертолеты в своих модификациях имеют различное количество лопастей главного несущего винта.
Габаритно-количественные параметры (длина, ширина, размах крыльев, диаметр главного несущего винта, количество лопастей винта) характеризуют масштаб объекта. Длина объекта - единственный параметр, характеризующий все объекты авиационной и сухопутной техники. Ширина объекта характерна только для сухопутной техники. Размах крыльев используется для характеристики самолетов, а диаметр главного несущего винта и количество лопастей характерны только для вертолетов.
В итоге библиотека эталонных изображений содержит исчерпывающей набор этих изображений, соответствующий перечню объектов интереса в части авиационной и в части сухопутной техники.
Входными данными Блока обнаружения и локализации 2 являются множества изображений следующих типов:
- растры панхроматических аэрокосмических снимков в формате TIFF lossless;
- метаданные о параметрах съемки (линейный масштаб, угол съемки, дата, время и место съемки, угловое положение солнца);
- эталонная экспертная разметка, содержащая для каждого объекта распознавания, присутствующего на растре снимка, координаты объекта.
В итоге на вход Блока обнаружения и локализации 2 подается нормированное изображение в видимом диапазоне волн в оттенках серого с фоном, на котором присутствуют объекты интереса. В результате работы Блока обнаружения и локализации 2 получается тепловая карта наличия объектов авиационной и сухопутной техники (фиг. 13). Цвет каждого элемента тепловой карты соответствует степени уверенности алгоритма в том, что в области входного изображения, соответствующей этому элементу, находится объект интереса. В Блоке Определения и ориентации 3 осуществляется определение угла поворота изображения найденного объекта и разворот изображения объекта в нулевое положение. Нулевым считается положение, при котором ось симметрии объекта параллельна оси ординат.
На вход блока Классификации 5 поступают полученные в результате работы Блока обнаружения и локализации 2, и Блока определения и ориентации 3 изображения объектов интереса (образцы), представленные в формате цветных или полутоновых цифровых изображений, и полученные в результате работы Блока сегментации 4 их бинарные маски (сегменты), в которых белые пиксели относятся к объектам интереса, а черные описывают фон. При этом исходные изображения объектов интереса могут иметь различные размеры, а бинарные маски растеризованы в едином масштабе с размером 128×128 пикселей, масштаб, выбран, как априорно достаточный.
Схему работы Блока классификации 5 поясняет фиг. 14. На первом этапе работы Блока классификации 5 осуществляется генерация признакового описания объекта 12 на основе образца/образцов из библиотеки эталонных изображений и результата работы Блока сегментации 4, выделяются топологические и геометрические признаки 13. Описание формы объекта осуществляется с помощью скелетного графа (срединные оси) и функции ширины (радиусы вписанных контуров). Скелет объекта представляется в виде множества центров максимальных окружностей вписанных в контуры границы объекта 14. На следующем этапе производится из эталонных изображений объектов отбор кандидатов по геометрическим и топологическим признакам 15. В дальнейшем осуществляется оценка близости границ образца с эталонами из базы эталонных изображений объектов 16 и ранжирование кандидатов по близости границы 17. На выходе Блока классификации 5 получается список вероятностей принадлежности обнаруженного и локализованного объекта к определенным типам объектов: авиационной или сухопутной техники.
В результате работы на выходе блока Вывод результатов 6 программно-аппаратного комплекса получается список координат центров или ограничивающих прямоугольников всех объектов интереса, присутствующих на изображении, идентификатор вида объекта, и показатель ранжирования для данного вида авиационной и сухопутной техники. Результаты тестирования ПАК показали, что значение функционала качества обнаружения и локализации, обеспечиваемое представленным программно-аппаратным комплексом составляет не менее 0,9, что на 7% превышает вероятность обнаружения и локализации квалифицированного оператора.
Выходными данными являются:
- shapefile с результатами локализации в формате ГИС «ArcGIS 10.2»;
- визуализация на выходных изображениях результатов локализации рамками на данном изображении;
- визуализация на выходных изображениях соответствующего типа объекта текстом.
Пример работы блока Вывод результатов 6 и всего программно-аппаратного комплекса, предназначенного для обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники представлен на фиг. 3 (4) для сухопутной техники и на фиг. 15 для авиационной техники, где при классификации объекта были определены самолеты McDonnell Douglas F/A-18 Hornet (на фиг. 15 обозначены, как F/A-18).
Описание чертежей
Фиг. 1. Схема работы программно-аппаратного комплекса обнаружения, локализации и классификации:
1 - Блок подготовки эталонных изображений;
2 - Блок обнаружения и локализации;
3 - Блок определения и ориентации;
4 - Блок сегментации;
5 - Блок классификации;
6 - Вывод результатов.
Фиг. 2. Возможность усложнения архитектуры нейронной сети в зависимости от содержания входного изображения:
а) пример для сухопутной техники, б) пример для авиационной техники.
Фиг. 2. Схема формирования архитектуры нейронной сети
а) образец для сухопутной техники,
б) образец для авиационной техники.
Фиг. 3. Образец обработки аэрофотоснимка в нескольких масштабах.
- масштаб типа местности подстилающей поверхности;
- масштаб взаимного расположения объектов техники;
- масштаб одиночных объектов военной техники;
Фиг. 4. Пример выбора рационального маршрута просмотра экспертом (цифрами обозначена последовательность просмотра участков)
Фиг. 5. Схема работы Блока определения и ориентации.
Фиг. 6. Образцы определения ориентации авиационной техники на основе вычисления оси симметрии.
Фиг. 7. Классификация по контурной мере сходства.
Фиг. 8. Построение непрерывной морфологической модели объекта:
а) бинарное изображение объекта,
б) скелет объекта.
Фиг. 9. Образец совмещения «скелетов».
Фиг. 10. Площадная мера сходства образов.
Фиг. 11. Образец классификации на основе площадной меры сходства.
Фиг. 12. Схема работы Блока подготовки эталонных изображений:
7 - оператор-эксперт;
8 - контурная модель объекта интереса;
9 - эталонное описание формы объекта интереса;
10 - исходная схема объекта интереса;
11 - библиотека эталонных изображений (шаблонов).
Фиг. 13 Пример тепловой карты изображения:
а) исходное изображение; б) обработанное изображение.
Фиг. 14 Схема работы Блока классификации:
12 - генерация признакового описания объекта;
13 - топологические и геометрические признаки объекта;
14 - контур границ объекта;
15 - отбор кандидатов по геометрическим и топологическим признакам;
16 - база эталонных изображений объектов;
17 - ранжирование кандидатов по близости границ;
18 - выход блока классификации.
Технический результат достигается использованием в ПАК аппаратной платформы с указанными выше характеристиками и особенностями и использованием в Блоке обнаружения и локализации 2 динамического глубинного анализа отрицательных примеров для введения в функцию потерь коэффициента, балансирующего объекты интереса и фон, использованием в Блоке сегментации 4 модифицированной функции потерь, придающей больший вес пикселям, находящимся рядом с границей маски, снижением вычислительной сложности в Блоке определения и ориентации 3 за счет использования вычислительных методов квадратичной сложности, использованием в Блоке классификации 5 комбинированного алгоритма с использованием нейронных сетей и морфологических методов анализа формы для классификации объектов, использованием формирования оптимального маршрута просмотра изображения при распознавании на крупноформатных изображениях малых объектов, расположенных в компактных группах, использованием многомасштабной архитектуры глубоких сверточных сетей.
Литература
1. Огурцов А. Глубокое обучение с R и Keras на примере Carvana Image Masking Challenge [Electronic resource]. 2017. URL: https://habr.com/company/ods/blog/3402121.
2. Carvana Image Masking Challenge-1st Place Winner's Interview [Electronic resource] // 2017. URL: http://blog.kaggle.com/2017/12/22/carvana-image-masking-first-place-interview/.
3. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015. P. 1-8.
4. Redmon J., Farhadi A. YOLOv3: An Incremental Improvement [Electronic resource]. 2018. P. 6. URL: https://arxiv.org/abs/1804.02767.
5. Guo S., Luo Y., Song Y. Random Forests and VGG-NET: An Algorithm for the ISIC 2017 Skin Lesion Classification Challenge. 2017.
6. Han X., Zhong Y., Zhang L. An efficient and robust integrated geospatial object detection framework for high spatial resolution remote sensing imagery // Remote Sens. 2017. Vol. 9, №7. P. 666.
7. Zuo, J., Xu, G., Fu, K., Sun, X., Sun H. Aircraft Type Recognition Based on Segmentation With Deep Convolutional Neural Networks // IEEE Geosci. Remote Sens. Lett. 2018. Vol. 15, №2. P. 282-286.
8. Niblack W. An introduction to Digital Image Processing. Prentice-Hall, 1986.
9. Theodoridis S., Koutroumbas K. Pattern Recognition // Elsevier. 2003. 295-300 p.
10. Le Q., Zoph B. Using Machine Learning to Explore Neural Network Architecture [Electronic resource]. 2017. URL: https://ai.googleblog.com/2017/05/using-machine-learning-to-explore.html (accessed: 20.07.2018).
11. Jean-Dominique Favreau, Florent Lafarge, Adrien Bousseau A.A. Extracting Geometric Structures in Images with Delaunay Point Processes // IEEE Transactions on Pattern Analysis and Machine Intelligence, Institute of Electrical and Electronics Engineers. 2019. P. 10.1109/TPAMI.2018.2890586.
12. Местецкий Л.М., Семенов А.Б. Меры сравнения формы объектов на аэрокосмических снимках. Сборник трудов по материалам VI Международной конференции и молодежной школы в 4-х томах. Под редакцией В.В. Мясникова. - Том. 2. 770 с. Обработка изображений и дистанционное зондирование Земли. Информационные технологии и нанотехнологии (ИТНТ-2020). 26-29 мая 2020 г. 627-634 с. Самарский национальный исследовательский университет имени академика С.П. Королева (Самара).
13. Mestetskiy, L., Zhuravskaya, A. Method for assessing the symmetry of objects on digital binary images based on Fourier descriptor. ISPRS - International Archives of the Photogrammetry, Remote Sensing and Spatial Information Scienses. - 2019. - Vol. XLII-2/W12/-P/143-148.
название | год | авторы | номер документа |
---|---|---|---|
Программно-аппаратный комплекс, предназначенный для обработки аэрофотоснимков видимого и дальнего инфракрасного диапазонов с целью обнаружения, локализации и классификации строений вне населенных пунктов | 2020 |
|
RU2752246C1 |
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники | 2020 |
|
RU2747044C1 |
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрофотоснимков видимого и дальнего инфракрасного диапазонов с целью обнаружения, локализации и классификации строений вне населенных пунктов | 2020 |
|
RU2747214C1 |
Интеллектуальная космическая система для мониторинга зданий и сооружений | 2018 |
|
RU2707138C1 |
Интеллектуальная космическая система для мониторинга участков недропользования открытого типа | 2018 |
|
RU2718419C1 |
Способ автоматической классификации рентгеновских изображений с использованием масок прозрачности | 2019 |
|
RU2716914C1 |
СЕГМЕНТАЦИЯ ТКАНЕЙ ЧЕЛОВЕКА НА КОМПЬЮТЕРНОМ ИЗОБРАЖЕНИИ | 2017 |
|
RU2654199C1 |
Способ обработки снимков компьютерной томографии (КТ-снимков) | 2023 |
|
RU2812866C1 |
Система и способ диагностики патологий придаточных пазух носа по рентгеновским изображениям | 2023 |
|
RU2825958C1 |
Система и способ определения патологий придаточных пазух носа по рентгеновским изображениям | 2023 |
|
RU2825519C1 |
Изобретение относится к программно-аппаратному комплексу, предназначенному для обработки аэрокосмических изображений местности. Техническим результатом является повышение точности автоматического обнаружения и локализации объектов интереса на крупноформатных аэрокосмических изображениях видимого диапазона. Комплекс содержит блок подготовки эталонных изображений, блок обнаружения и локализации, блок определения и ориентации, блок сегментации, блок классификации, вывод результатов, при этом аппаратная платформа содержит устройство, производящее параллельные векторные и матричные перемножения в процессе работы алгоритмов, а программная часть обеспечивает возможность обнаружения, локализации и классификации на аэрокосмических снимках объектов интереса, имеющих линейный размер объекта от 10 до 20 пикселей при общей площади снимка 20 млн пикселей и более; обеспечивает раздельную локализацию и классификацию объектов, находящихся в группах, при этом используются подходы AutoML для формирования оптимальной архитектуры нейронной сети, при этом полученная архитектура нейронной сети позволяет уменьшить вычислительную сложность нейросети при сохранении целевой метрики качества, с возможностью обработки большего количества информации в единицу времени. 15 ил.
Программно-аппаратный комплекс, предназначенный для обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной или сухопутной техники, включающий блоки: блок подготовки эталонных изображений, блок обнаружения и локализации, блок определения и ориентации, блок сегментации, блок классификации, вывод результатов и характеризующийся тем, что аппаратная платформа содержит устройство, производящее параллельные векторные и матричные перемножения в процессе работы алгоритмов, а программная часть обеспечивает возможность обнаружения, локализации и классификации на аэрокосмических снимках объектов интереса, имеющих линейный размер объекта от 10 до 20 пикселей при общей площади снимка 20 млн пикселей и более; обеспечивает раздельную локализацию и классификацию объектов, находящихся в группах, при этом используются подходы AutoML для формирования оптимальной архитектуры нейронной сети, при этом полученная архитектура нейронной сети позволяет уменьшить вычислительную сложность нейросети при сохранении целевой метрики качества, с возможностью обработки большего количества информации в единицу времени, при этом блок обнаружения и локализации выполнен с возможностью использования динамического глубинного анализа отрицательных примеров для введения в функцию потерь коэффициента, балансирующего объекты интереса и фон, для повышения точности обнаружения и локализации объектов на аэрокосмических изображениях при низкой плотности объектов интереса на аэрокосмических изображениях, составляющей менее одного объекта на квадратный километр, в блоке сегментации используется архитектура нейронной сети со сверточной и разверточной частями, соединенными между собой «бутылочным» горлышком, вынуждающим сверточную часть формировать эффективное сжатое представление, и дополнительными соединениями между сверточной и разверточной частями, передающими информацию с более высоким пространственным разрешением, с использованием модифицированной функции потерь, придающей больший вес пикселям, находящимся рядом с границей маски, в блоке определения и ориентации используется вычисление квадратичной по количеству точек в контуре меры асимметричности определения оси симметрии, снижающее вычислительную сложность, при этом блок классификации выполнен с возможностью использования комбинированного алгоритма с использованием нейронных сетей и морфологических методов анализа формы для классификации объектов, при этом при распознавании на крупноформатных изображениях малых объектов, расположенных в компактных группах, обнаружение, локализация и классификация объектов на изображениях осуществляется на основе формирования оптимального маршрута просмотра изображения, используется многомасштабная архитектура глубоких сверточных сетей.
СИСТЕМА И СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ГЛУБИННЫХ НЕЙРОННЫХ СЕТЕЙ | 2018 |
|
RU2743931C1 |
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники | 2020 |
|
RU2747044C1 |
СПОСОБ ОБНАРУЖЕНИЯ И КЛАССИФИКАЦИИ МАЛОРАЗМЕРНЫХ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ, ПОЛУЧЕННЫХ РАДИОЛОКАЦИОННЫМИ СТАНЦИЯМИ С СИНТЕЗИРОВАННОЙ АПЕРТУРОЙ | 2018 |
|
RU2698649C1 |
Программно-аппаратный комплекс, предназначенный для обработки аэрофотоснимков видимого и дальнего инфракрасного диапазонов с целью обнаружения, локализации и классификации строений вне населенных пунктов | 2020 |
|
RU2752246C1 |
СПОСОБ ОБРАБОТКИ ПОСЛЕДОВАТЕЛЬНОСТИ ИЗОБРАЖЕНИЙ ДЛЯ РАСПОЗНАВАНИЯ ВОЗДУШНЫХ ОБЪЕКТОВ | 2016 |
|
RU2664411C2 |
US 10664728 B2, 26.05.2020 | |||
US 10460447 B2, 29.10.2019 | |||
Станок для придания концам круглых радиаторных трубок шестигранного сечения | 1924 |
|
SU2019A1 |
CN 110942013 A, 31.03.2020 | |||
Способ регенерирования сульфо-кислот, употребленных при гидролизе жиров | 1924 |
|
SU2021A1 |
Авторы
Даты
2024-01-11—Публикация
2021-12-06—Подача