СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЙ ОБУЧЕННЫМИ НЕЙРОННЫМИ СЕТЯМИ Российский патент 2022 года по МПК G06V10/82 G06V20/58 G06T1/40 

Описание патента на изобретение RU2779281C1

Заявленное техническое решение относится к области распознавания изображений, а именно к технике обнаружения и классификации объектов на изображениях с использованием 3D-моделирования и порождающих состязательных нейронных сетей.

Заявленное изобретение может быть использовано для повышения вероятности обнаружения и классификации объектов на изображениях различных видов, включая изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона.

Использование нейронных сетей, обученных на большом числе изображений объектов, включающих множество вариантов условий съемки этих объектов, вариативность самих объектов и воздействующих на процесс съемки помех, позволяет существенно повысить возможности по обнаружению и классификации искомых объектов на исследуемых изображениях. К распознаваемым объектам могут относиться различные объекты как искусственного, так и природного происхождения, такие как различные транспортные и технические средства, технические средства и объекты специального и военного назначения, здания и строительные конструкции, элементы инфраструктуры, элементы местности и т.п.

Современные средства получения изображений позволяют формировать изображения объектов в различных диапазонах электромагнитных волн, включая изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона. Данные типы изображений существенно отличаются по своим характеристикам. Например, получаемые в СВЧ-диапазоне радиолокационные изображения (РЛИ) обладают рядом особенностей, существенно отличающих их от снимков видимого диапазона, как описано в [1]. Специфика рассеяния электромагнитных волн в сверхвысокочастотном диапазоне приводит к тому, что на РЛИ большей яркостью обладают образы объектов, имеющих более высокую электропроводность, главным образом объектов искусственного происхождения. При этом образы (изображения) объектов представляют собой совокупность локальных центров рассеяния, которые формируются вследствие однократного или многократного переотражения зондирующего сигнала от элементов объекта. Расположение и яркость таких центров определяется ракурсом наблюдения объекта, что приводит к высокой изменчивости образов, наблюдаемых на РЛИ. Также свои особенности имеют изображения в ИК-диапазоне.

Очень разнообразными могут быть условия получения изображений, такие как съемка с борта подвижных технических средств, включающих пилотируемые и беспилотные летательные аппараты, наземные и морские пилотируемые и робототехнические комплексы и т.п. При этом на формируемые изображения влияют различные условия, такие как искажения, вызванные движением носителя средства съемки или самого объекта съемки, изменением освещенности, дистанции съемки, воздействием шумовых помех различного физического происхождения, также влияют характеристики средств наблюдения объектов, окружающие объекты и т.п. Перечисленные факторы приводят к тому, что для обучения нейронных сетей, способных уверенно обнаруживать и классифицировать искомые объекты на исследуемых изображениях на фоне окружающей среды, необходимо использовать большое количество изображений каждого объекта с фоном, полученные в разное время суток, года, с разных средств формирования изображений, с разных ракурсов, сделанные с различным разрешением и учитывающих всевозможные воздействия на процесс съемки. Однако это является затруднительным в силу высокой стоимости получения натурных изображений объектов в различных условиях, юридически и этически затруднительным для медицинских снимков, или физически невозможным, например, для многих космических и подводных объектов в силу их низкой доступности для наблюдения и т.п.

Эти условия требуют применения новых технических решений, таких как создание с использованием вычислительных средств электронных трехмерных моделей объектов и формирование из них множества синтетических фотореалистических изображений этих объектов, где синтетические фотореалистические изображения должны быть подобны натурным изображениям, обычно используемых классифицирующими нейронными сетями при обучении в интересах обнаружения и классификации этих объектов. Формирование синтетических фотореалистических изображений объектов из трехмерных моделей этих объектов целесообразно совместить с различными типовыми фоновыми изображениями, характерными для практического размещения таких объектов. Объединение изображения объекта с изображением фона целесообразно, так как фон оказывает существенное влияние на вероятность обнаружения и классификации этих объектов для различных диапазонов волн их наблюдения.

Однако создаваемые из электронных трехмерных моделей объектов и фоновых изображений синтетические фотореалистические изображения объекта с фоном отличаются от натурных изображений, что снижает эффективность использования создаваемых изображений с фоном для обучения нейронных сетей с последующим обнаружением и классификацией искомых объектов. Различия обусловлены многими причинами, такими как несовершенство существующих способов объемного моделирования объектов (неточность отображения физических параметров реальных объектов при построении трехмерных моделей, несовпадение отражательных и излучательных свойств поверхности построенной модели свойствам реальной поверхности), погрешности состыковки изображений объекта и фона, отсутствие учета влияния атмосферы и в целом среды распространения при реальном наблюдении объектов, отсутствие учета влияния характеристик устройств формирования снимков объектов на фоне подстилающей поверхности (фотокамер для видимого диапазона, радиолокационных станций для СВЧ-диапазона, инфракрасных камер для ИК-диапазона), влияние условий освещения.

Известен способ вычислительно эффективного многоклассового распознавания изображений с использованием последовательного анализа нейросетевых признаков по патенту РФ №2706960, описанный в [2]. Данный способ заключается в том, что посредством сверточной нейронной сети получают вектор глубоких признаков входного изображения, применяют преобразование по методу главных компонент к данному вектору для получения последовательности главных компонент входного изображения, делят последовательность главных компонент на заранее заданное количество смежных частей, каждая из которых относится к отличающемуся от других уровню гранулярности, присоединяют часть последовательности, относящуюся к этому уровню гранулярности, к первоначально пустой подпоследовательности главных компонент входного изображения, вычисляют расстояние между подпоследовательностью и соответствующими подпоследовательностями главных компонент эталонов из множества решений-кандидатов, оценивают отношения минимального расстояния к другим расстояниям, исключают эталоны с отношениями меньше порога из множества решений-кандидатов, и если множество решений-кандидатов включают в эталоны только одного класса, идентифицируют входное изображение как относящееся к этому классу.

Недостатком указанного аналога является неустойчивость распознавания изображений при воздействии на исследуемые изображения различных искажающих воздействий при формировании изображений.

Известен также способ автоматической обработки изображений с использованием порождающих состязательных нейронных сетей по патенту РФ №2710659, описанный в [3]. Данный способ заключается в том, что из исходного двумерного изображения вырезают интересующий объект и вставляют его во второе изображение, содержащее только фон. С использованием генераторной нейронной сети последовательно изменяют изображение вставленного объекта и прилегающего к нему фона, а соответствующая дискриминаторная нейронная сеть последовательно пытается выявить различия между исходным изображением объекта и изображением вставленного объекта, а также между исходным изображением фона и подрисованным изображением фона таким образом, что дискриминаторы, начиная с некоторой итерации, оказываются неспособными выявить различия между исходными изображениями объекта и фона, и изображением объекта вставленного в фон объекта, При этом выявленные дискриминатором на очередной итерации различия используют для улучшения последующих генерируемых изображений и для повышения точности различения дискриминатором на последующих итерациях.

Достоинством указанного аналога является возможность повышения правдоподобия изображения объекта совместно с фоновым изображением, а недостатком - невозможность создания изображений объекта с измененным ракурсом его наблюдения по азимуту и углу места относительно исходного изображения и фона.

Наиболее близким по своей технической сущности к заявленному способу обработки изображений обученными нейронными сетями является способ обработки изображений обученными сверточными нейронными сетями по патенту РФ №2709661, описанный в [4]. Способ - прототип обработки изображений обученными сверточными нейронными сетями включает получение набора натурных изображений объекта, создание вычислительной системой исходного набора изображений, где каждое изображение из исходного набора изображений содержит рендеринг изображения типа текст, создание аугментированного набора изображений путем обработки исходного набора изображений для внесения в каждое изображение из исходного набора изображений по меньшей мере одного смоделированного дефекта эмуляции процесса фотосъемки изображения, создание обучающей выборки данных, содержащей множество пар изображений, в которых каждая пара изображений содержит первое изображение, выбранное из исходного набора изображений, и второе изображение, выбранное из аугментированного набора изображений, и обучение, с использованием обучающей выборки данных, одной или более сверточной нейронной сети для обработки изображений путем активации сверточной нейронной сети для каждого изображения из обучающей выборки данных, предварительной обработки каждого указанного изображения посредством соответствующих сверточных слоев нейронной сети, уменьшения каждого указанного изображения на заданный коэффициент масштабирования, увеличения изображения на заданный коэффициент масштабирования посредством соответствующих слоев транспонированной свертки и применение одной или более обученной сверточной нейронной сети для обработки одного или более изображений.

Особенностью способа-прототипа является то, что для обучения нейронных сетей создают большой набор изображений объектов с различными модификациями, такими как изменение, закрытие или затемнение части изображения объекта, размытие изображения объекта, наложение на изображения объекта мешающего шума и т.д., что позволяет обучить нейронные сети на большом наборе различных вариантов изображений одного и того же текстового сообщения, и обеспечить устойчивое к таким модификациям обнаружение и распознавание на изображениях видимого диапазона символов текста с использованием обученных нейронных сетей.

Однако в данном способе-прототипе обработки изображений обученными нейронными сетями выполняют обнаружение и классификацию только на изображениях видимого диапазона и только объектов вида алфавитно-цифровых надписей, причем условия получения таких изображений ограничиваются фотосъемкой изображений с борта наземных средств передвижений, таких как автомобиль. При этом фон изображений является фиксированным, так как изображаются стандартизированные дорожные указатели и надписи. А также не обеспечивается возможность создания изображений объекта с измененным ракурсом его наблюдения по азимуту и углу места относительно исходного изображения.

Таким образом, недостатком ближайшего аналога (прототипа) способа обработки изображений обученными нейронными сетями является относительно низкая вероятность обнаружения и классификации на изображениях объектов на фоне окружающей среды, представляющих собой различные транспортные и технические средства, технические средства и объекты специального и военного назначения, здания и строительные конструкции, элементы инфраструктуры, элементы местности и т.п., при получении изображений с различным ракурсом и различной физической природы, включающей изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона, с использованием подвижных технических средств, включающих пилотируемые и беспилотные летательные аппараты и наземные и морские пилотируемые и робототехнические комплексы.

Техническим результатом заявляемого решения является разработка способа обработки изображений обученными нейронными сетями, обеспечивающего повышение вероятности обнаружения и классификации объектов на изображениях различных видов, включая изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона.

Указанный технический результат в заявляемом способе обработки изображений обученными нейронными сетями достигается тем, что в известном способе обработки изображений обученными нейронными сетями, включающем получение набора натурных изображений объекта, создание исходного набора изображений, где каждое изображение из исходного набора изображений является результатом рендеринга изображения, создание обучающей выборки данных, содержащей множество изображений, обучение с использованием обучающей выборки данных классифицирующих нейронных сетей, применение обученной классифицирующей нейронной сети, дополнительно получают наборы натурных изображений N ≥ 2 объектов с фоном и трехмерные модели N объектов, а также набор М ≥ 2 фоновых изображений, причем наборы натурных изображений объектов сформированы в видимом диапазоне, или в СВЧ-диапазоне, или в ИК-диапазоне, а трехмерные модели объектов соответствуют видимому диапазону, или СВЧ-диапазону, или ИК-диапазону.

Создают K, где K ≥ N⋅M, исходных наборов изображений объектов с фоном, где каждое изображение из исходного набора изображений является результатом рендеринга трехмерной модели одного из объектов, совмещенной с одним из фоновых изображений. Рендеринг трехмерной модели объекта выполняют изменением ракурса наблюдения трехмерной модели этого объекта по азимуту и углу места.

Используя порождающую состязательную нейронную сеть, состоящую из генераторной нейронной сети и дискриминаторной нейронной сети, с помощью генераторной нейронной сети итеративно изменяют каждое изображение из исходных наборов изображений, с помощью дискриминаторной нейронной сети сравнивают на этой итерации измененное изображение с набором натурных изображений объектов с фоном, оценивают различия и передают оцененные различия генераторной нейронной сети, которая с учетом этих различий изменяет изображение, а также оцененные различия используют в дискриминаторной нейронной сети для повышения ее способности сравнения изображений. При этом генераторная нейронная сеть и дискриминаторная нейронная сеть выполнена с возможностью итеративного обучения. Повторяют ранее описанные действия до тех пор, пока дискриминаторная нейронная сеть способна выделять различия.

При исчерпании возможности выделения различий, К наборов измененных изображений в качестве обучающих выборок данных используют для обучения соответствующих классифицирующих нейронных сетей, соответствующую обученную классифицирующую нейронную сеть применяют к исследуемому изображению для обнаружения и классификации изображенного на нем объекта. В качестве обученных классифицирующих нейронных сетей используют сверточные классифицирующие нейронные сети. Соответствующие обученные классифицирующие нейронные сети обнаруживают и классифицируют объекты на изображениях видимого диапазона, или СВЧ-диапазона, или ИК-диапазона.

В предлагаемой совокупности действий формирование множества синтетических фотореалистических изображений объектов с фоном путем рендеринга трехмерной модели соответствующего объекта при изменении ракурса наблюдения трехмерной модели этого объекта по азимуту и углу места позволяет получить большое количество разнообразных изображений каждого объекта на фоне различных вариантов окружающей среды. Важным моментом также является то, что из трехмерной модели объекта с фоном возможно формирование достаточно большого для обучения классифицирующих нейронных сетей множества синтетических фотореалистических изображений этого объекта в видимом, СВЧ или ИК диапазонах электромагнитного спектра в условиях, когда получение значительных по размеру наборов натурных изображений объектов на фоне требуемой окружающей среды является затруднительным или невозможным в силу высокой стоимости получения натурных изображений, их низкой доступности для наблюдения и т.п. Далее полученное множество синтетических фотореалистических изображений объектов с фоном с использованием порождающей состязательной нейронной сети приближают к виду натурных изображений, что важно для обучения сверточной нейронной сети, способной повысить вероятность обнаружения и классификации изображенных объектов на исследуемых изображениях соответствующего диапазона электромагнитных волн.

Поэтому указанная новая совокупность действий при выполнении обработки изображений обученными нейронными сетями позволяет обеспечить повышение вероятности обнаружения и классификации объектов на изображениях различных видов, включая изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона.

Заявленный способ поясняется чертежами, на которых показаны:

- на фиг. 1 - система обработки изображений обученными нейронными сетями;

- на фиг. 2 - алгоритм обработки изображений обученными нейронными сетями;

- на фиг. 3 - примеры натурных и модельных изображений самолета на изображениях СВЧ-диапазона с различными ракурсами;

- на фиг. 4 - примеры натурных и модельных изображений самолета в ИК-диапазоне, днем, в зимних условиях;

- на фиг. 5 - примеры фоновых изображений в ИК диапазоне;

- на фиг. 6 - примеры визуализации трехмерной модели танка в видимом диапазоне;

- на фиг. 7 - пример изображения грузового автомобиля на фоне поверхности в видимом диапазоне до и после обработки;

- на фиг. 8 - иллюстрация метода трассировки лучей при рендеринге;

- на фиг. 9 - пример построения генераторной нейронной сети в виде автокодировщика.

Реализация заявленного способа представлена на примере системы обработки изображений обученными нейронными сетями, показанной на фиг. 1. На вход блока совмещения 1 поочередно поступают трехмерные модели объектов и фоновые изображения. В этом блоке, представляющем из себя вычислительную систему, изменяя ракурс наблюдения трехмерной модели объекта и фонового изображения, формируют совмещенное двумерное изображение объекта и фона. Затем в блоке создания исходных наборов изображений 2 создают К исходных наборов изображений объектов с фоном, где каждый ракурс объекта представлен вместе с одним из фонов. Каждый из исходных наборов изображений объектов с фоном поступает на генераторную нейронную сеть 3, в которой выходное изображение итеративно изменяется (дорисовывается) по сравнению с соответствующим входным изображением. Очередная итерация выходных изображений поступает на первый вход дискриминаторной нейронной сети 4, на второй вход которой поступают имеющиеся натурные изображения объектов с фоном. Дискриминаторная нейронная сеть 4 пытается определить, на кого похожи поступающие на ее первый вход изображения: на натурные изображения (НИ) или на синтетические изображения (СИ). Выработанные решения дискриминаторной нейронной сети 4 поступают на блок выделения различий 5, в котором на каждой итерации сравнения натурных и синтетических изображений вырабатывают различия очередных сгенерированных в генераторной нейронной сети 3 синтетических изображений от натурных изображений. Выявленные различия поступают на вход управления генераторной нейронной сети 3, в которой на следующей итерации будут сгенерированы синтетические изображения, более похожие на натурные изображения, и на вход управления дискриминаторной нейронной сети 4, которая на следующей итерации будет более обоснованно разделять синтетические изображения от натурных изображений. При этом генераторная нейронная сеть и дискриминаторная нейронная сеть на каждой итерации обучается, последовательно оптимизируя свои параметры. В ходе многоитерационного состязания между генераторной и дискриминаторной нейронными сетями генераторная нейронная сеть 3 сгенерирует изображения, которые в дискриминаторной нейронной сети 4 неотличимы от натурных изображений. При достижении этого, в блоке создания обучающей выборки данных 6 из итоговых сгенерированных генераторной нейронной сетью 3 изображений создают соответствующую обучающую выборку данных. Изначально исходные натурные изображения и фоновые изображения представляли собой или изображения видимого диапазона, или СВЧ-диапазона, или ИК-диапазона. Соответствующая выбранному диапазону обучающая выборка данных далее в блоке обучения классифицирующей нейронной сети используется для обучения соответствующей классифицирующей нейронной сети. Затем соответствующую обученную классифицирующую нейронную сеть применяют к исследуемому изображению для обнаружения и классификации изображенного на нем объекта. Эти обученные классифицирующие нейронные сети обнаруживают и классифицируют объекты, изображения которых возможно присутствуют на исследуемом изображении. Результатом работы является обнаружение и классификация по N типам изображенных объектов или при их отсутствии вынесение решения вида "объектов не обнаружено". Если на исследуемом изображении имеются изображения двух и более объектов, то их обнаружение и классификация выполняют независимо друг от друга. Представленная система обработки изображений описывает использование нейронных сетей для обнаружения и классификации объектов применительно к изображениях видимого диапазона, или СВЧ-диапазона, или ИК-диапазона, соответственно.

В способе реализуют следующую последовательность действий.

Алгоритм обработки изображений обученными нейронными сетями представлен на фигуре 2.

Способы получения наборов натурных изображений N ≥ 2 объектов с фоном известны, натурные изображения объектов получают, например, с использованием электронных фотоаппаратов для изображений видимого диапазона, с использованием радиолокационных станций для изображений СВЧ-диапазона, с использованием инфракрасных датчиков для изображений ИК-диапазона. Целесообразно для каждого объекта получение множества натурных изображений, отличающихся точкой съемки, ракурсом объекта, масштабом изображения, климатическими условиями и т.п. Например, в верхней части фиг. 3 показаны натурные изображения самолета в СВЧ-диапазоне с различными ракурсами (угол азимута 79 градусов в левой верхней части рисунка и 350 градусов в правой верхней части рисунка), а на фиг. 4а) - натурное изображение самолета в ИК-диапазоне, днем, в зимних условиях.

В силу возможных высоких затрат получения наборов натурных изображений или физической сложности их получения, например, для объектов в космосе и иных малодоступных сферах, количество имеющихся натурных изображений некоторых объектов, как правило, ограничено.

Аналогичны способы получения набора М ≥ 2 фоновых изображений. На этих изображениях представлен только фон, например, различные виды подстилающей поверхности. Набор фоновых изображений раздельно формируют в видимом диапазоне, в СВЧ-диапазоне, в ИК-диапазоне. Примеры фоновых изображений в ИК диапазоне показаны на фиг. 5.

Способы получения трехмерных моделей объектов известны, для их построения разработан ряд программ, таких как 3ds Max, Maya, Cinema 4D, Blender. Трехмерные модели различных объектов создают в результате их 3D-моделирования. Для построения 3D-модели объекта измеряют его геометрические размеры и оценивают его форму. Полученные 3D-модели объектов должны удовлетворять следующим требованиям: высокая степень реалистичности, визуального подобия геометрических форм создаваемых моделей самим объектам, соответствие габаритных размеров моделей размерам объектов, достаточный уровень детализации моделей, высокая точность форм, положения и размеров отдельных конструктивных элементов. Например, моделирование объектов, представляемых изображениями в СВЧ-диапазоне, описано в [5], а моделирование объектов, представляемых изображениями в видимом диапазоне, описано в [6]. Полученные трехмерные модели объектов соответствуют видимому диапазону, или СВЧ-диапазону, или ИК-диапазону. Геометрические параметры трехмерных моделей одного и того же объекта в разных диапазонах длин волн в целом соответствуют друг другу, но отличаются друг от друга характеристиками поверхности, что определяется физическими особенностями отражения от них электромагнитных волн разных диапазонов.

При создании трехмерных моделей наиболее распространенным способом является построение объемных фигур из сетки полигонов, описываемых вершинами, ребрами и гранями. Трехмерная модель объекта, состоящая из множества полигонов, представляет собой полигональную сетку. Например, на фиг. 6 показаны примеры визуализации трехмерной модели танка в видимом диапазоне. Для обеспечения фотореалистичности изображения поверхностям трехмерной модели объекта придают вид реальных материалов, таких как металл, дерево, пластик и т.п. Поверхность при необходимости становится прозрачной или зеркальной. Для этого, например, используется функция редактора материалов вида Material Editor в 3ds Max.

Каждую трехмерную модель объекта в заданном диапазоне волн последовательно совмещают с каждым фоновым изображением из набора М фоновых изображений соответствующего диапазона волн. Способы совмещения широко известны и заключаются, например, в наложении электронного изображения трехмерной модели объекта поверх электронного изображения требуемого фона.

Далее создают K, где K ≥ N⋅M, исходных наборов изображений объектов с фоном, где каждое изображение из исходного набора изображений является результатом рендеринга трехмерной модели одного из объектов, совмещенной с одним из фоновых изображений. Для этого каждое изображение из исходного набора изображений получают изменением ракурса наблюдения трехмерной модели этого объекта, совмещенной с одним из фоновых изображений, по азимуту и углу места. Исходные наборы изображений объектов с фоном создают раздельно для видимого диапазона, СВЧ- диапазона и ИК-диапазона. Например, на фиг. 7а) показано сформированное из трехмерной модели изображение грузового автомобиля на фоне поверхности в видимом диапазоне.

При рендеринге из виртуально наблюдаемой стороны трехмерной модели объекта с соответствующим фоновым изображением создают двумерное изображение объекта с фоном. Например, одним из способов рендеринга является метод трассировки лучей [7]. При этом методе формируемое изображение рассматривается как наблюдаемое из определенной точки. Из точки наблюдения на трехмерную модель объекта с соответствующим фоновым изображением направляются лучи, с помощью которых определяется интенсивность и цвет отображаемого пикселя на двумерном изображении. Лучи прекращают свое распространение, когда достигают поверхности трехмерной модели объекта или используемой фоновой поверхности. Иллюстрация метода трассировки лучей при рендеринге показана на фиг. 8.

Существующую в виде электронного образа в вычислительной системе трехмерную модель объекта с соответствующим фоновым изображением виртуально поворачивают на заданные угол азимута и угол места и фиксируют наблюдаемый ракурс изображения объекта. Значения углов азимута и углов места наблюдения трехмерной модели объекта выбирают исходя из возможных ракурсов физического наблюдения этого объекта, таких как вид спереди, сзади, с боков, горизонтально земной поверхности или под углом, включая вид сверху. Шаг изменения угла азимута и угла места выбирают не более нескольких градусов для увеличения числа изображений в наборе для каждого объекта с различающимися ракурсами, что позволит повысить вероятность обнаружения и распознавания этих объектов.

В результате созданы K исходных наборов изображений объектов с фоном, где каждый из N объектов изображен совместно с одним из М фоновых изображений во множестве ракурсов наблюдения, причем исходные наборы созданы раздельно для видимого диапазона, СВЧ-диапазона и ИК-диапазона.

Однако созданные описанным образом двумерные изображения объектов на фоне подстилающей поверхности являются синтезированными изображениями. Они похожи на натурные изображения, но отличаются от них. Поэтому напрямую созданные описанным образом изображения объектов с фоном не могут быть эффективно использованы для обучения классифицирующих нейронных сетей, которые далее должны применяться к исследуемым изображениям для обнаружения и классификации изображенных на них объектов.

Созданные исходные наборы изображений объектов с фоном изменяют с целью максимального приближения к естественности натурных изображений. Для этого предлагается использовать порождающую состязательную нейронную сеть (generative adversarial network, GAN), состоящую из генераторной нейронной сети и дискриминаторной нейронной сети. Примеры построения порождающих состязательных нейронных сетей описаны в [8-9], они основаны на итеративном соревновании двух связанных между собой антагонистических нейронных сетей, где генераторная нейронная сеть из созданных с помощью 3D-модели изображений объектов с фоном пытается порождать синтезированные изображения (СИ), похожие на натурные изображения (НИ), а дискриминаторная нейронная сеть, имея в качестве образцов для сравнения натурные изображения, пытается определить на кого больше похожи сгенерированные на очередной итерации изображения, на СИ или на НИ, и при сравнении порожденных на очередной итерации синтезированных изображений с натурными изображения выделяет их различия. Дискриминаторная нейронная сеть построена на основе связанных между собой сложным образом нейронных слоев, которые описываются вектором параметров, включающих виды связей между элементами нейронных слоев и значения коэффициентов передачи в имеющихся связях. На очередной итерации работы порождающей состязательной нейронной сети выделенные дискриминатором различия в виде параметров нейронной сети, различающиеся при сравнении синтезированных изображений и натурных изображений, передают выделенные различия генераторной нейронной сети, которая с учетом полученных различий подстраивает параметры свой нейронной сети, что позволяет ей на следующей итерации генерировать изображения более похожие на натурные изображения. Взаимодействие генераторной нейронной сети и дискриминаторной нейронной сети показано на фиг. 1.

Таким образом, на каждой итерации генераторная нейронная сеть, подстраивая свои параметры, дообучается и итеративно изменяет каждое изображение из исходных наборов изображений. Также на каждой итерации выделенные различия используются для подстройки параметров дискриминаторной нейронной сети, которая на следующей итерации становится способной лучше разделять синтезированные и натурные изображения и выделять различия между ними. В результате многоитерационной взаимной оптимизации генераторной и дискриминаторной нейронных сетей генераторная нейронная сеть порождает изображения объектов с фоном настолько похожие по своим характеристикам с натурными изображениями, что дискриминаторная нейронная сеть не способна отделить СИ от НИ и выделять между ними различия.

Предлагаемая порождающая состязательная нейронная сеть обучается в соответствии с методом обучения без учителя (unsupervised learning), так как ей не требуется предварительное назначение классифицирующих меток для используемых при обучении изображений. Генераторная нейронная сеть построена по принципу автокодировщика (autoencoder), который, получив на свои входы очередное созданное с помощью 3D-модели изображение объекта с фоном, с помощью последовательных сужающихся нейронных слоев пытается построить из него компактное представление входного изображения (решение задачи понижения размерности набора данных с выделением наиболее существенных параметров), как показано на фиг. 9. Эта часть автокодировщика называется кодировщик. Затем из полученного сжатого представления очередного изображения объекта с фоном, вторая часть автокодировщика, называемая декодировщик, с помощью последовательных расширяющихся нейронных слоев реконструирует входное изображение и в выходном слое декодировщика выдает совокупность пикселов выходного изображения, где число пикселов равно числу пикселов входного изображения, поступившему на входной слой кодировщика. В автокодировщике нейронные слои кодировщика и нейронные слои декодировщика обучаются синхронно. Например, такой автокодировщик описан в работе [10]. В результате многоитерационного обучения вектор параметров нейронных слоев автокодировщика, описывающий виды связей между элементами нейронных слоев и значения коэффициентов передачи в имеющихся связях, и определяемый как поступающим на него созданными с помощью ЗБ-модели изображениями объекта с фоном, так и информацией различия, преобразуется к виду, при котором изображения на выходе неотличимы от наборов натурных изображений. Например, на фиг. 7б) показано обработанное описанным образом изображение грузового автомобиля на фоне поверхности в видимом диапазоне.

При невозможности выделения различий, К наборов измененных изображений в качестве обучающих выборок данных используют для обучения соответствующих классифицирующих нейронных сетей. Вместе с ними для обучения соответствующих классифицирующих нейронных сетей также могут дополнительно использовать имеющиеся наборы натурных изображений. Отметим, что объем обучающих данных в К наборах измененных изображений во много раз превышает объем обучающих данных в наборах натурных изображений. Данные классифицирующие нейронные сети обучаются в соответствии с методом обучения с учителем (supervised learning), в обучающих выборках каждому используемому при обучении изображению назначается метка изображенного на нем объекта.

Дискриминаторная нейронная сеть может быть построена как классическая классифицирующая на два различающихся класса сверточная нейронная сеть, например, описанная в патенте [11].

В результате для каждого объекта создают обучающую выборку данных, состоящую из многих тысяч изображений, отражающих различные условия съемки данного объекта на фоне различных изображениях окружающей среды раздельно для изображений видимого диапазона, СВЧ-диапазона и ИК-диапазона.

Создание обучающих выборок данных, содержащих множество изображений, выбранных из К наборов измененных изображений, выполняют следующим образом. Раздельно для изображений видимого диапазона, СВЧ-диапазона и ИК- диапазона, из наборов измененных изображений случайным образом выбирают часть изображений, составляющую, например, 60-90% от К наборов измененных изображений соответствующего диапазона, как рекомендуется в [9]. При этом выбранное количество изображений каждого объекта может быть или равным для всех объектов или пропорциональным частости встречаемости такого объекта на практике.

Как описано, например, в [11], обучают классифицирующую нейронную сеть, например, сверточную классифицирующую нейронную сеть, в которой для операции свертки используется лишь ограниченная матрица весов небольшого размера, которую смещают по всему обрабатываемому слою, формируя после каждого сдвига сигнал активации для нейрона следующего слоя с аналогичной позицией. То есть для различных нейронов выходного слоя используются одна и та же матрица весов, которую называют ядром свертки. Ее интерпретируют как графическое кодирование какого-либо признака, например, наличие наклонной линии под определенным углом. Тогда следующий слой, получившийся в результате операции свертки такой матрицей весов, показывает наличие данного признака в обрабатываемом слое и ее координаты, формируя так называемую карту признаков. Соответственно, в сверточной нейронной сети используют ряд наборов весов, кодирующих элементы изображения (например, линии и дуги под разными углами). При этом такие ядра свертки не закладываются исследователем заранее, а формируются на этапе обучения сети различными способами, описанными, например, в [8-10].

Обучение сверточной нейронной сети с использованием обучающей выборки данных выполняют, например, следующим образом. Раздельно обучают сверточные нейронные сети для обнаружения и классификации объектов на изображениях видимого диапазона, СВЧ-диапазона и ИК-диапазона. Для обучения сети используют одну из созданных обучающих выборок данных. Например, как предлагается в [11], для каждого изображения из обучающей выборки данных с помощью сверточной нейронной сети вычисляют вектор признаков в пространстве признаков изображений, для обучающей выборки данных вычисляют значение функции потерь. Функция потерь отображает множество значений расстояния, где каждое значение расстояния вычисляют в пространстве признаков изображений между вектором признаков, представляющим изображение из обучающей выборки данных, и центром класса, ассоциируемого с этим изображением в соответствии с обучающей выборкой данных. На основе вычисленного значения функции потерь выполняют настройку одного или более параметров сверточной нейронной сети. Данную последовательность действий итеративно выполняют множество раз, добиваясь минимизации значения функции потерь. Если на очередных итерациях дальнейшего уменьшения значения функции потерь не происходит, то для данной обучающей выборки данных обучение сверточной нейронной сети для обнаружения и классификации объектов на изображениях соответствующего диапазона считают завершенным. Проверка достижения максимально достижимой вероятности обнаружения и классификации объектов для обученной сверточной нейронной сети выполняют на остатке множества изображений, выбранных из наборов изображений объектов, из которого исключена использованная для обучения сети обучающая выборка данных. Запомнив полученные значения вероятности обнаружения и классификации объектов, повторно описанным выше образом из аугментированных наборов изображений объектов создают новую обучающую выборку данных, заново обучают на ней сверточную нейронную сеть, для заново обученной сверточной нейронной сети получают значения вероятности обнаружения и классификации объектов на соответствующем остатке множества изображений, выбранных из наборов изображений объектов, из которого исключена использованная для обучения обучающая выборка данных. Если вновь полученные значения вероятности обнаружения и классификации объектов не превосходят ранее полученные значения, то обучение сверточной нейронной сети с использованием данной обучающей выборки данных завершают.

Применение соответствующей обученной классифицирующей нейронной сети к исследуемому изображению для обнаружения и классификации изображенных на нем объектов выполняют следующим образом. Для обработки исследуемого изображения, полученного в соответствующем диапазоне электромагнитных волн, используют обученную для этого диапазона нейронную сеть. Результатом обнаружения и классификации изображенного на нем объекта могут быть решения вида "обнаружены и классифицированы объекты" с локализацией их места на исследуемом изображении или решение вида "на данном изображении искомых объектов не обнаружено", как показано на фиг. 1. На исследуемом изображении могут быть несколько искомых объектов одного или различных типов. Для их обнаружения на изображении параллельно или последовательно выполняют поиск объектов различных типов.

Таким образом, в предлагаемом способе обеспечивается повышение вероятности обнаружения и классификации объектов на изображениях различных видов, включая изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона.

Литература

[1] Радиолокационные характеристики объектов. Методы исследования / Под ред. С.М. Несторова. - М.: Изд. Радиотехника. 2015. - 312 с.

[2] Способ вычислительно эффективного многоклассового распознавания изображений с использованием последовательного анализа нейросетевых признаков. Патент РФ №2706960 от 25.01.2019, МПК G06K 9/62 (2006.01).

[3] Способ автоматической обработки изображений с использованием генеративно-состязательных нейронных сетей. Патент РФ №2710659 от 20.02.2019, МПК G06T 1/40 (2019.08).

[4] Способ обработки изображений обученными сверточными нейронными сетями. Патент РФ №2709661 от 19.09.2018, МПК G06N 3/08 (2006.01).

[5] Афиногенов А.Ю. Математическое моделирование радиолокационных портретов распределенных объектов сложной формы и некоторые его приложения: дисс... канд. физ.- мат.наук. - М.: 1996. - 275 с.

[6] Гарбуль А.А., Жданов Д.Д., Потемкин И.С., Соколов В.Г. Компьютерное моделирование изображений сложных трехмерных сцен, сформированных моделями реальных оптических систем: // Журнал Научная визуализация. МИФИ. 2013, том 5, номер 4. - С. 88-117.

[7] Ульянов А.Ю., Котюжанский Л.А., Рыжкова Н.Г. Метод трассировки лучей как основная технология фотореалистичного рендеринга: // Журнал Фундаментальные исследования. УФУ. 2015, №11. - С. 1124-1128.

[8] Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей. - СПб.: Питер. 2018. - 480 с.

[9] Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy. Zhengwey Wang, Qi She, Tomas E. Ward. // arXiv preprint arXiv: 1906. 01529v4, 15 Jun. 2020.

[10] Паттерсон Дж., Гибсон А. Глубокое обучение с точки зрения практики. - М.: ДМК Пресс.2018. - 418 с.

[11] Способ обучения нейронной сети. Патент РФ №2707147 от 31.10.2018, МПК G06N 3/08 (2006.01).

Похожие патенты RU2779281C1

название год авторы номер документа
СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЙ СВЕРТОЧНЫМИ НЕЙРОННЫМИ СЕТЯМИ 2020
  • Бырков Игорь Анатольевич
  • Выжлецов Валентин Валентинович
  • Кожанов Никита Юрьевич
  • Мишин Сергей Александрович
  • Оков Игрь Николаевич
RU2771442C1
СПОСОБ РЕКОНСТРУКЦИИ 3D-МОДЕЛИ ОБЪЕКТА 2020
  • Бырков Игорь Анатольевич
  • Выжлецов Валентин Валентинович
  • Кожанов Никита Юрьевич
  • Овчинников Игорь Вячеславович
  • Оков Игорь Николаевич
RU2779271C2
СПОСОБ ОБНАРУЖЕНИЯ АНОМАЛИИ ГИПЕРСПЕКТРАЛЬНОГО ИЗОБРАЖЕНИЯ НА ОСНОВЕ МОДЕЛИ "ОБУЧАЮЩИЙ-ОБУЧАЕМЫЙ", КОМПЬЮТЕРНЫЙ НОСИТЕЛЬ ДАННЫХ И УСТРОЙСТВО 2023
  • Чжоу, Цзофэн
  • Чжэн, Сянтао
RU2817001C1
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники 2020
  • Балакчин Виктор Сергеевич
  • Балакчина Анастасия Викторовна
  • Гасникова Евгения Владимировна
  • Благушина Лариса Желалудиновна
  • Гаврилов Дмитрий Александрович
  • Гамиловский Сергей Витальевич
  • Еременко Артем Геннадьевич
  • Гутор Мария Александровна
  • Ефанов Николай Николаевич
  • Ефимов Вячеслав Юрьевич
  • Каврецкий Илья Леонидович
  • Косицын Владимир Петрович
  • Лапушкин Андрей Георгиевич
  • Маслов Дмитрий Александрович
  • Местецкий Александр Моисеевич
  • Местецкий Леонид Моисеевич
  • Пунь Андрей Богданович
  • Родионов Павел Борисович
  • Семенов Андрей Борисович
  • Соколов Глеб Михайлович
  • Татаринова Елена Александровна
  • Федоров Андрей Владимирович
  • Фонин Владимир Николаевич
  • Фонин Юрий Николаевич
  • Фортунатов Антон Александрович
RU2747044C1
СПОСОБ ДИСТАНЦИОННОЙ ОЦЕНКИ ПРОСТРАНСТВЕННОГО РАСПРЕДЕЛЕНИЯ ТЕПЛОФИЗИЧЕСКИХ ПАРАМЕТРОВ МАТЕРИАЛОВ 2022
  • Родионов Вадим Владимирович
  • Глинчиков Сергей Николаевич
  • Зенкин Александр Александрович
  • Уваров Андрей Игоревич
  • Ищук Игорь Николаевич
RU2801295C1
СИСТЕМЫ И СПОСОБЫ ОБУЧЕНИЯ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ, А ТАКЖЕ ИСПОЛЬЗОВАНИЕ ОБУЧЕННЫХ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ 2019
  • Нго Дин, Нхан
  • Эвангелисти, Джулио
  • Навари, Флавио
RU2819619C2
СИСТЕМА ИДЕНТИФИКАЦИИ СВЕЖИХ ПРОДУКТОВ ДЛЯ КАССОВОГО ТЕРМИНАЛА РОЗНИЧНОЙ ТОРГОВЛИ 2018
  • Херц Марсель
  • Сампсон Кристофер
RU2769888C2
СПОСОБ ДИСТАНЦИОННОЙ ОЦЕНКИ ПРОСТРАНСТВЕННОГО РАСПРЕДЕЛЕНИЯ ТЕПЛОФИЗИЧЕСКИХ ПАРАМЕТРОВ ОБЪЕКТОВ И ФОНОВ 2021
  • Великанов Алексей Викторович
  • Ищук Игорь Николаевич
  • Лихачев Максим Александрович
  • Долгов Алексей Александрович
  • Тельных Богдан Константинович
  • Зенкин Александр Александрович
  • Уваров Андрей Игоревич
  • Родионов Вадим Владимирович
RU2760528C1
НЕЙРОННАЯ ТОЧЕЧНАЯ ГРАФИКА 2019
  • Алиев Кара-Али Алибулатович
  • Ульянов Дмитрий Владимирович
  • Лемпицкий Виктор Сергеевич
RU2729166C1
ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБРАБОТКИ ИЗОБРАЖЕНИЙ С ПОМОЩЬЮ СИНТЕТИЧЕСКИХ ФОТОРЕАЛИСТИЧНЫХ СОДЕРЖАЩИХ ЗНАКИ ИЗОБРАЖЕНИЙ 2018
  • Загайнов Иван Германович
  • Борин Павел Валерьевич
RU2709661C1

Иллюстрации к изобретению RU 2 779 281 C1

Реферат патента 2022 года СПОСОБ ОБРАБОТКИ ИЗОБРАЖЕНИЙ ОБУЧЕННЫМИ НЕЙРОННЫМИ СЕТЯМИ

Изобретение относится к области распознавания изображений, а именно к технике обнаружения и классификации объектов на изображениях с использованием 3D-моделирования и порождающих состязательных нейронных сетей. Техническим результатом является повышение вероятности обнаружения и классификации объектов на изображениях различных видов, включая изображения видимого диапазона, СВЧ-диапазона и ИК-диапазона. Способ содержит этапы, на которых получают наборы натурных объектов и набор фоновых изображений, а также трехмерные модели объектов путем рендеринга трехмерной модели каждого из объектов с фоном получают исходные наборы синтезированных изображений, используя состязательную нейронную сеть, состоящую из генераторной нейронной сети и дискриминаторной нейронной сети, с помощью генераторной нейронной сети итеративно изменяют каждое изображение из исходных наборов изображений, с помощью дискриминаторной нейронной сети сравнивают на этой итерации измененное изображение с набором натурных изображений объектов с фоном, оценивают различия и передают оцененные различия генераторной нейронной сети, которая с учетом этих различий изменяет изображение, а также оцененные различия используют в дискриминаторной нейронной сети для повышения ее способности сравнения изображений, и повторяют ранее описанные действия до тех пор, пока дискриминаторная нейронная сеть способна выделять различия, а при исчерпании возможности выделения различий наборы измененных изображений в качестве обучающих выборок данных используют для обучения соответствующих классифицирующих нейронных сетей, соответствующую обученную классифицирующую нейронную сеть применяют к исследуемому изображению для обнаружения и классификации изображенного объекта. 6 з.п. ф-лы, 9 ил.

Формула изобретения RU 2 779 281 C1

1. Способ обработки изображений обученными нейронными сетями, включающий получение набора натурных изображений объекта, создание исходного набора изображений, где каждое изображение из исходного набора изображений является результатом рендеринга изображения, создание обучающей выборки данных, содержащей множество изображений, обучение с использованием обучающей выборки данных классифицирующих нейронных сетей, применение обученной классифицирующей нейронной сети, отличающийся тем, что получают наборы натурных изображений N ≥ 2 объектов с фоном и трехмерные модели N объектов, а также набор М ≥ 2 фоновых изображений, создают K, где K ≥ N⋅M, исходных наборов изображений объектов с фоном, где каждое изображение из исходного набора изображений является результатом рендеринга трехмерной модели одного из объектов, совмещенной с одним из фоновых изображений, далее используя состязательную нейронную сеть, состоящую из генераторной нейронной сети и дискриминаторной нейронной сети, с помощью генераторной нейронной сети итеративно изменяют каждое изображение из исходных наборов изображений, с помощью дискриминаторной нейронной сети сравнивают на этой итерации измененное изображение с набором натурных изображений объектов с фоном, оценивают различия и передают оцененные различия генераторной нейронной сети, которая с учетом этих различий изменяет изображение, а также оцененные различия используют в дискриминаторной нейронной сети для повышения ее способности сравнения изображений, и повторяют ранее описанные действия до тех пор, пока дискриминаторная нейронная сеть способна выделять различия, а при исчерпании возможности выделения различий K наборов измененных изображений в качестве обучающих выборок данных используют для обучения соответствующих классифицирующих нейронных сетей, соответствующую обученную классифицирующую нейронную сеть применяют к исследуемому изображению для обнаружения и классификации изображенного на нем объекта.

2. Способ по п. 1, отличающийся тем, что наборы натурных изображений N объектов с фоном и набор М фоновых изображений сформированы в виде изображений видимого диапазона, полученные трехмерные модели объектов соответствуют видимому диапазону, и соответствующая обученная классифицирующая нейронная сеть обнаруживает и классифицирует объекты на изображениях видимого диапазона.

3. Способ по п. 1, отличающийся тем, что наборы натурных изображений N объектов с фоном и набор М фоновых изображений сформированы в виде изображений СВЧ-диапазона, полученные трехмерные модели объектов соответствуют СВЧ-диапазону, и соответствующая обученная классифицирующая нейронная сеть обнаруживает и классифицирует объекты на изображениях СВЧ-диапазона.

4. Способ по п. 1, отличающийся тем, что наборы натурных изображений N объектов с фоном и набор М фоновых изображений сформированы в виде изображений ИК-диапазона, полученные трехмерные модели объектов соответствуют ИК-диапазону, и соответствующая обученная классифицирующая нейронная сеть обнаруживает и классифицирует объекты на изображениях ИК-диапазона.

5. Способ по п. 1, отличающийся тем, что при создании K исходных наборов изображений объектов с фоном каждое изображение из исходного набора является результатом рендеринга трехмерной модели одного из объектов, что выполняют изменением ракурса наблюдения трехмерной модели этого объекта по азимуту и углу места.

6. Способ по п. 1, отличающийся тем, что генераторная нейронная сеть и дискриминаторная нейронная сеть выполнены с возможностью итеративного обучения.

7. Способ по п. 1, отличающийся тем, что в качестве обученных классифицирующих нейронных сетей используют сверточные нейронные сети.

Документы, цитированные в отчете о поиске Патент 2022 года RU2779281C1

ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОБРАБОТКИ ИЗОБРАЖЕНИЙ С ПОМОЩЬЮ СИНТЕТИЧЕСКИХ ФОТОРЕАЛИСТИЧНЫХ СОДЕРЖАЩИХ ЗНАКИ ИЗОБРАЖЕНИЙ 2018
  • Загайнов Иван Германович
  • Борин Павел Валерьевич
RU2709661C1
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
US 6556196 B1, 29.04.2003
Совместная неконтролируемая сегментация объектов и подрисовка 2019
  • Остяков Павел Александрович
  • Суворов Роман Евгеньевич
  • Логачева Елизавета Михайловна
  • Хоменко Олег Игоревич
  • Николенко Сергей Игоревич
RU2710659C1

RU 2 779 281 C1

Авторы

Бойченко Дмитрий Юрьевич

Бырков Игорь Анатольевич

Мишин Сергей Александрович

Овчинников Игорь Вячеславович

Оков Игорь Николаевич

Даты

2022-09-05Публикация

2021-07-09Подача