Область техники
Настоящее изобретение относится к области машинного обучения, в частности, к анализу изображений посредством нейронных сетей. Изобретение предназначено для эффективного обучения моделей компьютерного зрения для сегментирования дорожного полотна по изображениям. Изобретение может быть использовано для создания систем автоматического управления движением высокоавтоматизированных колёсных транспортных средств, для создания высокоавтоматизированных систем анализа окружающей среды посредством использования камер.
Уровень техники
Известен способ обучения нейросетевой модели для сегментирования дорожного полотна (Zhao H. et al. Pyramid scene parsing network //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2017. – С. 2881-2890.), согласно которому в процессе обучения модели используются маски положения поверхности дороги на изображении и классическая функция потерь с использованием перекрёстной энтропии.
Недостатком данного способа является то, что для обучения модели с использованием данного метода необходимы маски положения дороги, для получения которых используется трудоёмкий процесс разметки изображений. Помимо этого, невозможно использовать данные с сенсора лидара, который позволяет увеличить количество данных и улучшить качество предсказаний.
Известен способ обучения нейросетевой модели для сегментирования дорожного полотна (Lv X. et al. A novel approach for detecting road based on two-stream fusion fully convolutional network //2018 IEEE Intelligent Vehicles Symposium (IV). – IEEE, 2018. – С. 1464-1469.), принятый за прототип, согласно которому в процессе обучения модели используются как изображения, так и облака точек с лидаров. Облака точек преобразуются в сетки из точек в представление вид сверху (bird's-eye view). Далее изображения и сетки из точек обрабатываются отдельными потоками в нейросетевой модели и объединяются в специальном слое объединения (Fusion Layer) посредством преобразования потока от изображений в вид сетки из точек. Предсказание дорожного полотна аналогично имеет вид сверху.
Основным недостатком данного способа является то, что для работы подхода с использованием изображений и облаков точек необходимо значительное изменение архитектуры нейросетевой модели, что требует большего количества ресурсов и снижает универсальность модели по отношению к входным данным. Помимо этого, требуется преобразование данных в другое представление (вид сверху) отличное от оригинального. Преобразование осуществляется как для облаков точек, так и для изображений, что может привести к снижению точности данных из-за преобразований.
Раскрытие сущности изобретения
Технической задачей, на решение которой направлено заявляемое изобретение, является создание способа обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек.
Техническим результатом заявляемого изобретения является сокращение затрат на разметку данных и улучшение точности предсказания поверхности дорожного полотна нейросетевой моделью, что приведёт к повышению точности систем автоматического управления движением высокоавтоматизированным колёсным транспортным средством.
Заявленный технический результат достигается при помощи способа обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек для создания систем автоматического управления движением высокоавтоматизированных колёсных транспортных средств и высокоавтоматизированных систем анализа окружающей среды, включающего в себя сбор данных в виде изображений, полученных при помощи камер и облаков точек, полученных при помощи лидаров, при этом предварительно осуществляется ручная аннотация только облаков точек, представляющих собой облако, в котором каждая точка имеет класс объекта, такого как дорожное полотно, а все остальные точки, имеют класс – фон, на предмет выделения поверхности дороги, после чего облака точек проецируются на изображения с камер с использованием калибровочных данных, далее полученные спроецированные точки дополняются случайным шумом в областях на изображении в виде точек размером с пиксель изображения, не покрытых спроецированными точками, затем полученная маска используется, как пространство для подсчёта функции потерь, которая представляет из себя маскированную версию перекрёстной энтропии, а также полученная маска дорожного полотна используется как истинное положение поверхности дороги на изображении, при этом при подсчёте функции потерь используются не все пиксели изображения, а только те, в которых имеются спроецированные точки с лидарного облака, причем функция потерь для каждого изображения может быть представлена в следующем виде:
где определяет принадлежность пикселя
классу поверхности дороги,
представляет собой предсказание модели для пикселя
,
определяет наличие спроецированной точки в маске функции потерь для пикселя
,
- общее количество пикселей на изображении,
- общее количество ненулевых точек на маске для подсчёта функции потерь, кроме того, камера и лидар записывают данные одновременно с возможностью их покадровой синхронизации.
Краткое описание чертежей
На фиг. 1 представлена последовательность операций заявляемого способа обучения нейронной модели глубокого обучения.
На фиг. 2-5 представлены входные данные, используемые в процессе обучения нейронной модели глубокого обучения с использованием заявленного способа обучения. Фиг. 2 - оригинальное изображение, фиг. 3 - изображение со стандартной маской поверхности дороги, используемая в классических методах, фиг. 4 - изображение со спроецированными точками поверхности дороги, фиг. 5 - изображение с финальной маской для обучения со спроецированными точками и с добавлением случайного шума.
На фиг. 6 представлено изображение с предсказанием поверхности дорожного полотна нейросетевой моделью, которая была обучена с использованием заявленного способа обучения.
Осуществление изобретения
Фиг. 1 иллюстрирует необходимые этапы для осуществления обучения нейросетевой модели посредством применения представленного способа с одновременным использованием изображений и данных с облаков точек.
Способ начинается с процесса сбора данных. Поскольку происходит обучение нейросетевой модели для изображений, необходимы изображения с камер. Высокоавтоматизированное колёсное транспортное средство должно иметь камеры, записывающие данные в процессе движения. Полученные изображения используются в процессе обучения нейросетевой модели и не требуют дополнительных манипуляций. Пример изображения можно увидеть на фиг. 2.
Второй тип данных, необходимый для осуществления обучения описанным методом - облака точек, записанные при помощи лидара. Высокоавтоматизированное колёсное транспортное средство должно быть оснащено лидаром, записывающим данные в процессе движения. Камера и лидар должны записывать данные одновременно с возможностью их покадровой синхронизации. Полученные облака точек требуют дополнительные манипуляции для дальнейшего использования в процессе обучения нейросетевой модели.
В первую очередь, на облаках точек должна быть аннотирована поверхность дорожного полотна. Аннотация происходит посредством использования специального программного обеспечения. Например, посредством инструмента для аннотации Semantic Segmentation Editor (https://github.com/Hitachi-Automotive-And-Industry-Lab/semantic-segmentation-editor). Используя инструмент для аннотации, специалисты асессоры размечают дорожное полотно на облаках точек. Процесс разметки является стандартным для обучения нейронных сетей и для подобных методов, и предполагает разметку как изображений, так и облаков точек. Пример стандартной аннотации для изображений в виде маски дороги изображен на фиг. 3. Однако для предлагаемого метода требуется аннотация только облаков точек, что позволяет значительно сократить ресурсы на аннотацию, так как аннотация поверхности дорожного полотна требует большое количество времени. В качестве альтернативы возможно использовать готовые датасеты с аннотированной поверхностью дорожного полотна. В случае использования в процессе обучения нейросетевой модели как аннотаций для изображений, так и аннотаций для лидарных данных, необходимо также провести аннотацию изображений.
Размеченные облака точек представляют собой облако, в котором каждая точка имеет класс объекта. В нашем случае имеется только один класс - дорожное полотно. Все остальные точки, имеют класс - фон.
Для использования точек в процессе обучения необходимо спроецировать точки на изображение. Для этого применяется проективное преобразование с использованием внутренних параметров камеры и матрицы преобразования, которая может быть получена в процессе калибровки камеры и лидара. Преобразование однородной точки в координатной системе лидара в точку
на плоскости изображения может быть представлено в следующем виде:
где K - матрица внутренних параметров камеры, матрица трансформации из координатной системы лидара в координатную систему камеры. Полученные спроецированные точки поверхности дороги изображены на фиг. 4.
В процессе обучения модели используются не только спроецированные точки поверхности дороги, но и точки, которые были аннотированы до этого. Для использования спроецированных точек требуется дополнить маску случайным шумом в виде точек размером с пиксель изображения. Так как лидар покрывает лишь часть изображения, в процессе обучения это может привести к нестабильным предсказаниям в областях без точек. Изображение со всеми спроецированными точками и добавленным случайным шумом представлено на фиг. 5. Маска из таких точек представляет собой маску для подсчёта маскированной функции потерь.
Таким образом, данные были подготовлены к использованию в процессе обучения нейросетевой модели.
Помимо данных необходима нейросетевая модель, которая будет осуществлять предсказания и обучаться с использованием описанного способа. В рамках заявленного способа может использоваться сверточная нейросетевая модель для сегментации изображений, которая на вход получает изображение, а на выходе предсказывает попиксельную маску для поверхности дороги, где значение пикселя равное 1 означает дорогу и значение пикселя равное 0 означает фон. Для проверки работы метода использовалась нейросеть PSPNet, являющаяся стандартной нейросетевой моделью для задачи сегментации по изображениям.
Для осуществления обучения с использованием описанного способа также требуется маскированная функция потерь. Её особенностью является то, что при подсчёте функции потерь используются не все пиксели изображения, а только те, в которых имеются спроецированные точки с лидарного облака. Функция потерь для каждого изображения может быть представлена в следующем виде:
где yi определяет принадлежность пикселя i классу поверхности дороги, pi представляет собой предсказание модели для пикселя i, mi определяет наличие спроецированной точки в маске функции потерь для пикселя i, N - общее количество пикселей на изображении, M - общее количество ненулевых точек на маске для подсчёта функции потерь.
В сущности, это маскированная версия перекрёстной энтропии. Для изображений с наличием аннотации маски дороги маска функции потерь заменяется на маску из единиц и таким образом функция потерь превращается в стандартную перекрёстную энтропию, что позволяет обучать нейросетевую модель одновременно на аннотированных масках для изображений и на спроецированных лидарных точках. Таким образом, нейросеть в процессе обучения использует изображения с камеры, а также информацию, записанную при помощи лидара.
Итоговое предсказание модели представляет собой маску поверхности дорожного полотна. Пример предсказания модели изображен на фиг. 6.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ВИЗУАЛИЗАЦИИ 3D ПОРТРЕТА ЧЕЛОВЕКА С ИЗМЕНЕННЫМ ОСВЕЩЕНИЕМ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ НЕГО | 2021 |
|
RU2757563C1 |
СПОСОБ ПОСТРОЕНИЯ КАРТЫ ГЛУБИНЫ ПО ПАРЕ ИЗОБРАЖЕНИЙ | 2022 |
|
RU2806009C2 |
Способы и системы для формирования обучающих данных для обнаружения горизонта и плоскости дороги | 2020 |
|
RU2767838C1 |
Способ обеспечения компьютерного зрения | 2022 |
|
RU2791587C1 |
Способы и системы для определения компьютером наличия объектов | 2018 |
|
RU2743895C2 |
Способ обработки данных и система технического зрения для роботизированного устройства | 2021 |
|
RU2782662C1 |
СПОСОБ И СИСТЕМА ДЛЯ ОПРЕДЕЛЕНИЯ СТЕПЕНИ УХУДШЕНИЯ ЛИДАРНЫХ ДАННЫХ | 2021 |
|
RU2826476C1 |
СПОСОБ МОНИТОРИНГА СОСТОЯНИЯ ЗИМНИХ АВТОДОРОГ | 2023 |
|
RU2809950C1 |
Способ и электронное устройство для обнаружения трехмерных объектов с помощью нейронных сетей | 2021 |
|
RU2776814C1 |
МОДЕЛИРОВАНИЕ ЧЕЛОВЕЧЕСКОЙ ОДЕЖДЫ НА ОСНОВЕ МНОЖЕСТВА ТОЧЕК | 2021 |
|
RU2776825C1 |
Изобретение относится к области машинного обучения, в частности к анализу изображений посредством нейронных сетей. Технический результат заключается в сокращении затрат на разметку данных и улучшении точности предсказания поверхности дорожного полотна нейросетевой моделью, что приведёт к повышению точности систем автоматического управления движением высокоавтоматизированным колёсным транспортным средством. Способ включает: сбор данных в виде изображений, полученных при помощи камер, и облаков точек, полученных при помощи лидаров, при этом предварительно осуществляется ручная аннотация облаков точек на предмет выделения поверхности дороги, после чего облака точек проецируются на изображения с камер с использованием калибровочных данных, далее добавляется случайный шум в областях на изображении, не покрытых спроецированными точками, в результате получается маска, которая используется как истинное положение поверхности дороги на изображении, что необходимо для подсчёта функции потерь при обучении модели, где функция потерь представляет из себя маскированную версию перекрёстной энтропии. 6 ил.
Способ обработки изображений в процессе обучения нейронной модели глубокого обучения с одновременным использованием изображений и данных с облаков точек, включающий в себя сбор данных в виде изображений, полученных при помощи камер и облаков точек, полученных при помощи лидаров, отличающийся тем, что предварительно осуществляется ручная аннотация только облаков точек, представляющих собой облако, в котором каждая точка имеет класс объекта, такого как дорожное полотно, а все остальные точки имеют класс – фон, на предмет выделения поверхности дороги, после чего облака точек проецируются на изображения с камер с использованием калибровочных данных, далее полученные спроецированные точки дополняются случайным шумом в областях на изображении в виде точек размером с пиксель изображения, не покрытых спроецированными точками, затем полученная маска используется как пространство для подсчёта функции потерь, которая представляет из себя маскированную версию перекрёстной энтропии, а также полученная маска дорожного полотна используется как истинное положение поверхности дороги на изображении при обучении нейронной сети, при этом при подсчёте функции потерь используются не все пиксели изображения, а только те, в которых имеются спроецированные точки с лидарного облака, причем функция потерь для каждого изображения может быть представлена в следующем виде:
где yi определяет принадлежность пикселя i классу поверхности дороги, pi представляет собой предсказание модели для пикселя i, mi определяет наличие спроецированной точки в маске функции потерь для пикселя i, N - общее количество пикселей на изображении, M - общее количество ненулевых точек на маске для подсчёта функции потерь, кроме того, камера и лидар записывают данные одновременно с возможностью их покадровой синхронизации.
Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п. | 1921 |
|
SU3A1 |
"Проекты по разметке данных, на которых практикуемся | |||
Туториал Яндекс.Толоки", 05.12.2019, Найдено в: |
Авторы
Даты
2024-12-25—Публикация
2023-09-26—Подача