Способ обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек Российский патент 2024 года по МПК G01C21/30 G06V20/58 

Описание патента на изобретение RU2832583C1

Область техники

Настоящее изобретение относится к области машинного обучения, в частности, к анализу изображений посредством нейронных сетей. Изобретение предназначено для эффективного обучения моделей компьютерного зрения для сегментирования дорожного полотна по изображениям. Изобретение может быть использовано для создания систем автоматического управления движением высокоавтоматизированных колёсных транспортных средств, для создания высокоавтоматизированных систем анализа окружающей среды посредством использования камер.

Уровень техники

Известен способ обучения нейросетевой модели для сегментирования дорожного полотна (Zhao H. et al. Pyramid scene parsing network //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2017. – С. 2881-2890.), согласно которому в процессе обучения модели используются маски положения поверхности дороги на изображении и классическая функция потерь с использованием перекрёстной энтропии.

Недостатком данного способа является то, что для обучения модели с использованием данного метода необходимы маски положения дороги, для получения которых используется трудоёмкий процесс разметки изображений. Помимо этого, невозможно использовать данные с сенсора лидара, который позволяет увеличить количество данных и улучшить качество предсказаний.

Известен способ обучения нейросетевой модели для сегментирования дорожного полотна (Lv X. et al. A novel approach for detecting road based on two-stream fusion fully convolutional network //2018 IEEE Intelligent Vehicles Symposium (IV). – IEEE, 2018. – С. 1464-1469.), принятый за прототип, согласно которому в процессе обучения модели используются как изображения, так и облака точек с лидаров. Облака точек преобразуются в сетки из точек в представление вид сверху (bird's-eye view). Далее изображения и сетки из точек обрабатываются отдельными потоками в нейросетевой модели и объединяются в специальном слое объединения (Fusion Layer) посредством преобразования потока от изображений в вид сетки из точек. Предсказание дорожного полотна аналогично имеет вид сверху.

Основным недостатком данного способа является то, что для работы подхода с использованием изображений и облаков точек необходимо значительное изменение архитектуры нейросетевой модели, что требует большего количества ресурсов и снижает универсальность модели по отношению к входным данным. Помимо этого, требуется преобразование данных в другое представление (вид сверху) отличное от оригинального. Преобразование осуществляется как для облаков точек, так и для изображений, что может привести к снижению точности данных из-за преобразований.

Раскрытие сущности изобретения

Технической задачей, на решение которой направлено заявляемое изобретение, является создание способа обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек.

Техническим результатом заявляемого изобретения является сокращение затрат на разметку данных и улучшение точности предсказания поверхности дорожного полотна нейросетевой моделью, что приведёт к повышению точности систем автоматического управления движением высокоавтоматизированным колёсным транспортным средством.

Заявленный технический результат достигается при помощи способа обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек для создания систем автоматического управления движением высокоавтоматизированных колёсных транспортных средств и высокоавтоматизированных систем анализа окружающей среды, включающего в себя сбор данных в виде изображений, полученных при помощи камер и облаков точек, полученных при помощи лидаров, при этом предварительно осуществляется ручная аннотация только облаков точек, представляющих собой облако, в котором каждая точка имеет класс объекта, такого как дорожное полотно, а все остальные точки, имеют класс – фон, на предмет выделения поверхности дороги, после чего облака точек проецируются на изображения с камер с использованием калибровочных данных, далее полученные спроецированные точки дополняются случайным шумом в областях на изображении в виде точек размером с пиксель изображения, не покрытых спроецированными точками, затем полученная маска используется, как пространство для подсчёта функции потерь, которая представляет из себя маскированную версию перекрёстной энтропии, а также полученная маска дорожного полотна используется как истинное положение поверхности дороги на изображении, при этом при подсчёте функции потерь используются не все пиксели изображения, а только те, в которых имеются спроецированные точки с лидарного облака, причем функция потерь для каждого изображения может быть представлена в следующем виде:

где определяет принадлежность пикселя классу поверхности дороги, представляет собой предсказание модели для пикселя , определяет наличие спроецированной точки в маске функции потерь для пикселя , - общее количество пикселей на изображении, - общее количество ненулевых точек на маске для подсчёта функции потерь, кроме того, камера и лидар записывают данные одновременно с возможностью их покадровой синхронизации.

Краткое описание чертежей

На фиг. 1 представлена последовательность операций заявляемого способа обучения нейронной модели глубокого обучения.

На фиг. 2-5 представлены входные данные, используемые в процессе обучения нейронной модели глубокого обучения с использованием заявленного способа обучения. Фиг. 2 - оригинальное изображение, фиг. 3 - изображение со стандартной маской поверхности дороги, используемая в классических методах, фиг. 4 - изображение со спроецированными точками поверхности дороги, фиг. 5 - изображение с финальной маской для обучения со спроецированными точками и с добавлением случайного шума.

На фиг. 6 представлено изображение с предсказанием поверхности дорожного полотна нейросетевой моделью, которая была обучена с использованием заявленного способа обучения.

Осуществление изобретения

Фиг. 1 иллюстрирует необходимые этапы для осуществления обучения нейросетевой модели посредством применения представленного способа с одновременным использованием изображений и данных с облаков точек.

Способ начинается с процесса сбора данных. Поскольку происходит обучение нейросетевой модели для изображений, необходимы изображения с камер. Высокоавтоматизированное колёсное транспортное средство должно иметь камеры, записывающие данные в процессе движения. Полученные изображения используются в процессе обучения нейросетевой модели и не требуют дополнительных манипуляций. Пример изображения можно увидеть на фиг. 2.

Второй тип данных, необходимый для осуществления обучения описанным методом - облака точек, записанные при помощи лидара. Высокоавтоматизированное колёсное транспортное средство должно быть оснащено лидаром, записывающим данные в процессе движения. Камера и лидар должны записывать данные одновременно с возможностью их покадровой синхронизации. Полученные облака точек требуют дополнительные манипуляции для дальнейшего использования в процессе обучения нейросетевой модели.

В первую очередь, на облаках точек должна быть аннотирована поверхность дорожного полотна. Аннотация происходит посредством использования специального программного обеспечения. Например, посредством инструмента для аннотации Semantic Segmentation Editor (https://github.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor). Используя инструмент для аннотации, специалисты асессоры размечают дорожное полотно на облаках точек. Процесс разметки является стандартным для обучения нейронных сетей и для подобных методов, и предполагает разметку как изображений, так и облаков точек. Пример стандартной аннотации для изображений в виде маски дороги изображен на фиг. 3. Однако для предлагаемого метода требуется аннотация только облаков точек, что позволяет значительно сократить ресурсы на аннотацию, так как аннотация поверхности дорожного полотна требует большое количество времени. В качестве альтернативы возможно использовать готовые датасеты с аннотированной поверхностью дорожного полотна. В случае использования в процессе обучения нейросетевой модели как аннотаций для изображений, так и аннотаций для лидарных данных, необходимо также провести аннотацию изображений.

Размеченные облака точек представляют собой облако, в котором каждая точка имеет класс объекта. В нашем случае имеется только один класс - дорожное полотно. Все остальные точки, имеют класс - фон.

Для использования точек в процессе обучения необходимо спроецировать точки на изображение. Для этого применяется проективное преобразование с использованием внутренних параметров камеры и матрицы преобразования, которая может быть получена в процессе калибровки камеры и лидара. Преобразование однородной точки в координатной системе лидара в точку на плоскости изображения может быть представлено в следующем виде:

где K - матрица внутренних параметров камеры, матрица трансформации из координатной системы лидара в координатную систему камеры. Полученные спроецированные точки поверхности дороги изображены на фиг. 4.

В процессе обучения модели используются не только спроецированные точки поверхности дороги, но и точки, которые были аннотированы до этого. Для использования спроецированных точек требуется дополнить маску случайным шумом в виде точек размером с пиксель изображения. Так как лидар покрывает лишь часть изображения, в процессе обучения это может привести к нестабильным предсказаниям в областях без точек. Изображение со всеми спроецированными точками и добавленным случайным шумом представлено на фиг. 5. Маска из таких точек представляет собой маску для подсчёта маскированной функции потерь.

Таким образом, данные были подготовлены к использованию в процессе обучения нейросетевой модели.

Помимо данных необходима нейросетевая модель, которая будет осуществлять предсказания и обучаться с использованием описанного способа. В рамках заявленного способа может использоваться сверточная нейросетевая модель для сегментации изображений, которая на вход получает изображение, а на выходе предсказывает попиксельную маску для поверхности дороги, где значение пикселя равное 1 означает дорогу и значение пикселя равное 0 означает фон. Для проверки работы метода использовалась нейросеть PSPNet, являющаяся стандартной нейросетевой моделью для задачи сегментации по изображениям.

Для осуществления обучения с использованием описанного способа также требуется маскированная функция потерь. Её особенностью является то, что при подсчёте функции потерь используются не все пиксели изображения, а только те, в которых имеются спроецированные точки с лидарного облака. Функция потерь для каждого изображения может быть представлена в следующем виде:

где yi определяет принадлежность пикселя i классу поверхности дороги, pi представляет собой предсказание модели для пикселя i, mi определяет наличие спроецированной точки в маске функции потерь для пикселя i, N - общее количество пикселей на изображении, M - общее количество ненулевых точек на маске для подсчёта функции потерь.

В сущности, это маскированная версия перекрёстной энтропии. Для изображений с наличием аннотации маски дороги маска функции потерь заменяется на маску из единиц и таким образом функция потерь превращается в стандартную перекрёстную энтропию, что позволяет обучать нейросетевую модель одновременно на аннотированных масках для изображений и на спроецированных лидарных точках. Таким образом, нейросеть в процессе обучения использует изображения с камеры, а также информацию, записанную при помощи лидара.

Итоговое предсказание модели представляет собой маску поверхности дорожного полотна. Пример предсказания модели изображен на фиг. 6.

Похожие патенты RU2832583C1

название год авторы номер документа
СПОСОБ ВИЗУАЛИЗАЦИИ 3D ПОРТРЕТА ЧЕЛОВЕКА С ИЗМЕНЕННЫМ ОСВЕЩЕНИЕМ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ НЕГО 2021
  • Севастопольский Артём Михайлович
  • Лемпицкий Виктор Сергеевич
RU2757563C1
СПОСОБ ПОСТРОЕНИЯ КАРТЫ ГЛУБИНЫ ПО ПАРЕ ИЗОБРАЖЕНИЙ 2022
  • Маслович Николай Романович
  • Яшунин Дмитрий Александрович
  • Дерендяев Илья Васильевич
RU2806009C2
Способы и системы для формирования обучающих данных для обнаружения горизонта и плоскости дороги 2020
  • Постников Михаил Михайлович
  • Орлов Всеволод Николаевич
RU2767838C1
Способ обеспечения компьютерного зрения 2022
  • Рухович Данила Дмитриевич
  • Воронцова Анна Борисовна
  • Конушин Антон Сергеевич
RU2791587C1
Способы и системы для определения компьютером наличия объектов 2018
  • Мурашкин Вячеслав Владимирович
  • Рыков Андрей Олегович
RU2743895C2
Способ обработки данных и система технического зрения для роботизированного устройства 2021
  • Бутов Павел Александрович
  • Шепель Илья Олегович
  • Суанов Тимур Александрович
RU2782662C1
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ СТЕПЕНИ УХУДШЕНИЯ ЛИДАРНЫХ ДАННЫХ 2021
  • Данилюк Кирилл Евгеньевич
  • Точилкин Дмитрий Сергеевич
RU2826476C1
СПОСОБ МОНИТОРИНГА СОСТОЯНИЯ ЗИМНИХ АВТОДОРОГ 2023
  • Зварич Вилен Юрьевич
  • Карпиков Андрей Алексеевич
  • Зинина Ольга Ивановна
  • Воинов Сергей Александрович
  • Климовских Александр Николаевич
  • Кузнецов Егор Евгеньевич
  • Долгов Василий Сергеевич
  • Левашов Алексей Евгеньевич
  • Соколов Дмитрий Иванович
  • Корюкин Максим Сергеевич
RU2809950C1
Способ и электронное устройство для обнаружения трехмерных объектов с помощью нейронных сетей 2021
  • Рухович Данила Дмитриевич
  • Воронцова Анна Борисовна
  • Конушин Антон Сергеевич
RU2776814C1
МОДЕЛИРОВАНИЕ ЧЕЛОВЕЧЕСКОЙ ОДЕЖДЫ НА ОСНОВЕ МНОЖЕСТВА ТОЧЕК 2021
  • Григорьев Артур Андреевич
  • Лемпицкий Виктор Сергеевич
  • Захаркин Илья Дмитривич
  • Мазур Кирилл Евгеньевич
RU2776825C1

Иллюстрации к изобретению RU 2 832 583 C1

Реферат патента 2024 года Способ обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек

Изобретение относится к области машинного обучения, в частности к анализу изображений посредством нейронных сетей. Технический результат заключается в сокращении затрат на разметку данных и улучшении точности предсказания поверхности дорожного полотна нейросетевой моделью, что приведёт к повышению точности систем автоматического управления движением высокоавтоматизированным колёсным транспортным средством. Способ включает: сбор данных в виде изображений, полученных при помощи камер, и облаков точек, полученных при помощи лидаров, при этом предварительно осуществляется ручная аннотация облаков точек на предмет выделения поверхности дороги, после чего облака точек проецируются на изображения с камер с использованием калибровочных данных, далее добавляется случайный шум в областях на изображении, не покрытых спроецированными точками, в результате получается маска, которая используется как истинное положение поверхности дороги на изображении, что необходимо для подсчёта функции потерь при обучении модели, где функция потерь представляет из себя маскированную версию перекрёстной энтропии. 6 ил.

Формула изобретения RU 2 832 583 C1

Способ обработки изображений в процессе обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек, включающий в себя сбор данных в виде изображений, полученных при помощи камер и облаков точек, полученных при помощи лидаров, отличающийся тем, что предварительно осуществляется ручная аннотация только облаков точек, представляющих собой облако, в котором каждая точка имеет класс объекта, такого как дорожное полотно, а все остальные точки имеют класс – фон, на предмет выделения поверхности дороги, после чего облака точек проецируются на изображения с камер с использованием калибровочных данных, далее полученные спроецированные точки дополняются случайным шумом в областях на изображении в виде точек размером с пиксель изображения, не покрытых спроецированными точками, затем полученная маска используется как пространство для подсчёта функции потерь, которая представляет из себя маскированную версию перекрёстной энтропии, а также полученная маска дорожного полотна используется как истинное положение поверхности дороги на изображении при обучении нейронной сети, при этом при подсчёте функции потерь используются не все пиксели изображения, а только те, в которых имеются спроецированные точки с лидарного облака, причем функция потерь для каждого изображения может быть представлена в следующем виде:

где yi определяет принадлежность пикселя i классу поверхности дороги, pi представляет собой предсказание модели для пикселя i, mi определяет наличие спроецированной точки в маске функции потерь для пикселя i, N - общее количество пикселей на изображении, M - общее количество ненулевых точек на маске для подсчёта функции потерь, кроме того, камера и лидар записывают данные одновременно с возможностью их покадровой синхронизации.

Документы, цитированные в отчете о поиске Патент 2024 года RU2832583C1

Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п. 1921
  • Богач Б.И.
SU3A1
"Проекты по разметке данных, на которых практикуемся
Туториал Яндекс.Толоки", 05.12.2019, Найдено в:

RU 2 832 583 C1

Авторы

Шарафутдинов Динар Радифович

Протасов Саян Константинович

Кусков Станислав Анатольевич

Садовсков Кирилл Викторович

Даты

2024-12-25Публикация

2023-09-26Подача