Показать метаданные Скрыть метаданные

(19)

(11)

2 841 111

(13)

(51)

МПК

B60W60/00(2020-01-01)

G06N3/02(2006-01-01)

G06V10/82(2022-01-01)

G08G1/16(2006-01-01)

(21) (22)

Заявка

2024118011, 2024-06-28

(24)

Дата начала отсчета патента

2024-06-28

(22)

дата подачи заявки

2024-06-28

(45)

опубликовано

2025-06-02

(72)

авторы

Карим Атеф Абдельмагид Абдо ЭльдакруриХегази Мостафа Айман Ахмед МохамедРашид Бадер

(73)

патентообладатели

Автономная Некоммерческая Организация Высшего Образования Иннополис"

(56)

Документы, цитированные в отчете о поиске

US 11740358 B2, 29.08.2023US 2018354423 A1, 13.12.2018US 11574483 B2, 07.02.2023.

Способ управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров Российский патент 2025 года по МПК B60W60/00 G06N3/02 G06V10/82 G08G1/16

Описание патента на изобретение RU2841111C1

ОБЛАСТЬ ТЕХНИКИ

Заявленное изобретение относится к компьютерно-реализованным способам и системам для управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

В последнее время область беспилотных транспортных средств представляет большой исследовательский интерес, обусловленный близостью к реализации полностью автономных автомобилей. Данные, полученные с различных сенсоров, объединяются вместе, для создания однородного представления об окружающем пространстве.

Модели нейронных сетей на основе архитектуры трансформеров находят применение в различных областях высоких технологий, к примеру, в бортовых системах беспилотного транспорта. Вместе с тем, остается недостаточно изученным вопрос о применении методики end-to-end обучения нейронных сетей на основе архитектуры трансформеров для использования в бортовых системах беспилотного транспорта.

Подобные подходы известны из уровня техники, например, автомобильная система отображения (см. US10300856B2, опубл. 28.05.2019), которая включает в себя один экран видеодисплея и видеопроцессор, предназначенный для обработки захваченных данных видеоизображения, захваченных камерой в транспортном средстве. Одиночный экран видеодисплея включает в себя левую область отображения в левой части, правую область отображения в правой части и среднюю область отображения между левой и правой областями отображения. Экран дисплея может использовать каждую область отображения для отображения видеоизображений, полученных из соответствующей части захваченных данных изображения. Когда экран дисплея отображает видеоизображения в правой или левой области отображения, полученные из соответствующей части данных захваченного изображения, на одном экране дисплея не отображаются видеоизображения, представляющие другую часть данных захваченного изображения на другом дисплее. область, край.

Представленная в аналоге система трекинга не раскрывает полностью подхода к считыванию данных камер, поэтому сложно судить об используемой системе отслеживания объектов.

Также из уровня техники известны способы и системы для автоматизированного определения присутствия объектов (см. RU2744012, опубл. 02.03.2021). Способ содержит прием данных датчиков, представляющих окружающую область SDC в форме данных облака трехмерных точек, формирование, посредством MLA, на основе данных облака трехмерных точек, набора векторов признаков, представляющих окружающую область, формирование, посредством MLA, представления в форме сетки окружающей области, причем каждая данная ячейка представления в форме сетки включает в себя спрогнозированный параметр расстояния, указывающий расстояние от данной ячейки до ближайшей ячейки с препятствием, и использование, посредством электронного устройства, параметра расстояния для того, чтобы определять присутствие препятствия в окружающей области SDC.

Указанный способ не обладает большой точностью, так как разработан только для работы только внутри помещений/складских территорий, и не способен работать в условиях дождя или снегопада. Также данный метод определения расстояния до объектов не учитывает историю передвижения обнаруженного препятствия, информация о которой может заметно улучшить точность определения расстояния до динамических объектов.

Из уровня техники известны, выбранные в качестве ближайшего аналога способы и системы для автоматизированного определения присутствия объектов (см. RU2769921, опубл. 08.04.2022) Способ осуществляется посредством электронного устройства, соединенного с возможностью связи с лидаром, установленным на транспортном средстве, причем лидар имеет множество лазеров для захвата данных облака лидарных точек. Способ содержит: прием первых данных облака лидарных точек, захваченных посредством лидара; выполнение посредством электронного устройства алгоритма машинного обучения (MLA) для следующего: анализа первого множества лидарных точек из первых данных облака точек относительно шаблона откликов множества лазеров; извлечения данных представления в виде сетки окружающей области транспортного средства; определения того, что первое множество лидарных точек ассоциировано со слепой зоной, причем слепая зона препятствует алгоритму обнаружения электронного устройства обнаружить присутствие по меньшей мере одного объекта в окружении транспортного средства, что обусловлено тем, что присутствует по меньшей мере один объект.

Указанный способ также не обладает большой точностью, так как задействует в качестве сенсора только лидар, который имеет большое количество шума при работе в условиях сильного дождя, тумана или снега. Использование нескольких сенсоров с объединением данных с них позволяет нивелировать недостатки каждого сенсора и увеличить точность распознавания.

Предложенный аналог наиболее близко подходит к решению проблем, решаемых заявленным изобретением, однако, по мнению заявителя проблема решается не самым эффективным способом, поскольку способ также не обеспечивает надежности.

КРАТКОЕ ИЗЛОЖЕНИЕ ИЗОБРЕТЕНИЯ

Данное изобретение направлено на решение технической проблемы, связанной с созданием способа управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров повышенной точности и производительности управления беспилотными транспортными средствами.

Техническим результатом изобретения является повышение точности и производительности работы бортовых систем беспилотных транспортных средств.

Технический результат достигается посредством создания способа управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров, включающего совместную обработку выходных сигналов сигналов датчиков беспилотного транспортного средства, в том числе различного типа.

Способ управления бортовыми системами беспилотных транспортных средств, характеризуется тем, что для управления бортовой системой используют нейронную сеть, которая обучается непосредственно на входных сигналах датчиков и выводит необходимые управляющие сигналы на основе изученных паттернов для этого архитектура сверточной нейронной сети, напрямую сопоставляет входные необработанные пиксели изображения с командами управления, при этом сеть синтеза представляет собой основу архитектуру модели и отвечает за извлечение характеристик окружающей среды, вторая часть – сеть прогнозирования пути, которая принимает векторы характеристик, предоставленные сетью синтеза, и прогнозирует следующие несколько точек маршрута для транспортного средства, затем выходные значения из сети прогнозирования пути подают на пропорционально-интегрально-дифференцирующий регулятор (ПИД-регуляторы), которые осуществляют управление системами контроля движения транспортного средства, сеть синтеза разделяется на две ветви: ветвь изображения и ветвь вида с высоты птичьего полета, объединенные через модуль трансформера, ветвь изображения получает на вход RGB-изображение и использует серию сверточных кодировщиков для извлечения визуальных характеристик из окружающей среды, кодировщики работают в разных масштабах, захватывая как мелкие детали, так и контекстуальную информацию, полученные карты характеристик содержат визуальные представления, охватывающие различные паттерны, присутствующие на изображении, ветвь вида с высоты птичьего полета принимает в качестве входных данных отображение облака точек, полученных с лидара, которая использует собственный набор сверточных кодировщиков, информация, полученная с лидара, позволяет осуществлять геометрическую и пространственную интерпретацию данных, позволяя модели воспринимать вид трехмерной структуры окружающей среды с высоты птичьего полета, карты характеристик, полученные из обеих ветвей, подаются на вход модуля трансформера, который осуществляет совместную обработку данных ветвей модальности, при этом трансформеры представляют собой одну из моделей глубокого обучения, а их архитектура состоит из блоков «кодировщик-декодировщик» и слоев самоконтроля, при обработке информации механизм самоконтроля позволяет модели упорядочить различные элементы по весам значимости, трансформер вычисляет оценку значимости для каждого элемента, сравнивая его с остальными.

В предпочтительном варианте осуществления при оснащении беспилотного транспортного средства могут быть использованы различные типы датчиков, включая камеры, лидары и радары.

КРАТКОЕ ОПИСАНИЕ РИСУНКОВ

Сущность изобретения поясняется рисунками, на которых:

Рис.1 – архитектура модели TransFuser;

Рис.2 – вспомогательные задачи, используемые в TransFuser;

Рис.3 – входные данные набора данных KITTI;

Рис.4 – разметка семантической сегментации KITTI;

Эти чертежи не охватывают и, кроме того, не ограничивают весь объем вариантов реализации данного технического решения, а представляют собой только иллюстративный материал частного случая его реализации.

ВАРИАНТ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

Заявленный способ управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров направлен на упрощение рутинных операций и обеспечение безопасности для людей. Несчастные случаи, относящиеся к любому виду транспорта, происходят в основном по причине человеческого фактора. Следовательно, разработка беспилотных транспортных средств, исключающих возможность человеческой ошибки, становится все более значимой задачей.

Метод end-to-end обучения является одним из методов машинного обучения, связанных с преобразованием входных данных в выходные данные, и при этом исключающих необходимость ручной обработки признаков. Метод показал высокую эффективность в таких задачах, как классификация изображений и обработка естественного языка. В сфере разработки беспилотного транспорта наблюдается значительный интерес к применению end-to-end обучения нейронных сетей бортовых систем, поскольку он позволяет модели напрямую учиться на входных данных и генерировать соответствующие управляющие команды.

Автономные транспортные средства являются важной областью исследований в практическом применении машинного обучения. Способность беспилотных транспортных средств адекватно воспринимать окружающую среду критически важна для их успешного функционирования. Для создания беспилотного транспортного средства, которое может действовать самостоятельно, без вмешательства человека, требуется комплексное оснащение транспортного средства системой датчиков. При этом также необходимо создание системы совместной обработки сигналов датчиков, в качестве которой в настоящей работе выбрана нейронная сеть. Далее описаны методы, позволяющие решить задачу совместной обработки сигналов датчиков с использованием нейронной сети, и приводятся источники, в которых они описываются.

Совместная обработка сигналов датчиков представляет собой одновременную обработку выходных сигналов нескольких датчиков, в том числе различного типа. В контексте беспилотного транспорта совместная обработка сигналов датчиков является одним из ключевых компонентов безопасности, позволяющим бортовой системе точно воспринимать окружающую среду и принимать адекватные обстановке решения автоматического управления.

В оснащении беспилотного транспорта могут использоваться различные типы датчиков, включая камеры, лидары и радары. Каждый тип датчика имеет свои сильные и слабые стороны, и комбинирование нескольких датчиков помогает преодолеть проблемы каждого из них в отдельности, и, таким образом, обеспечить более точное и надежное восприятие окружающей среды.

Одним из широко используемых подходов в совместной обработке сигналов датчиков является использование вероятностной модели, такой как байесовский фильтр. Байесовский фильтр – это математическая модель, которая может объединять информацию от нескольких датчиков и оценивать наиболее вероятное состояние окружающей среды.

Другие подходы к слиянию сенсоров основаны на глубоком обучении нейронных сетей таких типов, как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN). Эти методы применяются в объединении информации от нескольких датчиков непосредственно из необработанных сигналов.

Байесовские фильтры и методы глубокого обучения, которые показали многообещающие результаты в области беспилотного транспорта, являются наиболее распространенными подходами в совместной обработке сигналов датчиков.

Алгоритмы и методы совместной обработки сигналов датчиков имеют важное значение при интеграции выходов различных датчиков для получения более точного описания состояния окружающей среды. В таблице 1 приводятся некоторые распространенные методы совместной обработки сигналов датчиков и их особенности.

Таблица 1. Распространенные методы совместной обработки сигналов датчиков и их особенности

Метод Признаки Преимущества Фильтр Калмана Линейная модель, гауссовский шум Оптимальный в линейных системах с гауссовским шумом Расширенный фильтр Калмана Нелинейная модель, гауссовский шум Расширенная версия фильтра Калмана, способная обрабатывать нелинейные системы Нейронные сети Не вероятностная модель Может изучать сложные взаимосвязи между данными Байесовские сети Вероятностная модель Может учитывать неопределенность и использоваться для аргументации

Одним из основных преимуществ обучения end-to-end для автономных транспортных средств является то, что оно снижает зависимость от специалистов, которые вручную осуществляют разметку данных и разрабатывают процесс принятия решений. Этот подход позволяет модели учиться непосредственно на входных сигналах датчиков и выводить необходимые управляющие сигналы на основе изученных паттернов. Кроме того, модели обучения end-to-end могут быть обучены с использованием больших наборов данных, что помогает улучшить точность модели и ее обобщающую способность.

Заявленный способ предлагает решение, которое представляет концепцию обучения end-to-end в области автономных транспортных средств. Предложена архитектура сверточной нейронной сети, которая напрямую сопоставляет входные необработанные пиксели изображения с командами управления, не требуя ручной разметки данных. На этапе обучения использовалась обширная коллекция видеозаписей вождения наземных транспортных средств. Успешность использования предложенного метода была подтверждена в реальных дорожных условиях.

Архитектура применяемой модели TransFuser

TransFuser состоит из двух основных частей: первая – это сеть синтеза на основе трансформеров. Сеть синтеза, как показано на рисунке 1, представляет собой основу архитектуру модели TransFuser и отвечает за извлечение характеристик окружающей среды. Вторая часть – это сеть прогнозирования пути, которая принимает векторы характеристик, предоставленные сетью синтеза, и прогнозирует следующие несколько точек маршрута для транспортного средства. Затем выходные значения из сети прогнозирования пути подаются на ПИД-регуляторы, которые осуществляют управление системами контроля движения транспортного средства.

Сеть синтеза разделяется на две ветви: ветвь изображения и ветвь вида с высоты птичьего полета (BEV), объединенные через модуль трансформера. Эти компоненты, в дополнение к процессу объединения признаков, выполняемому модулем трансформера, подробно описаны в следующих разделах.

1) Ветви модальности:

Ветвь изображения получает на вход RGB-изображение и использует серию сверточных кодировщиков для извлечения визуальных характеристик из окружающей среды. Кодировщики работают в разных масштабах, захватывая как мелкие детали, так и контекстуальную информацию. Полученные карты характеристик содержат визуальные представления, охватывающие различные паттерны, присутствующие на изображении.

Ветвь вида с высоты птичьего полета принимает в качестве входных данных отображение облака точек, полученных с лидара. Эта ветвь использует собственный набор сверточных кодировщиков. Информация, полученная с лидара, позволяет осуществлять геометрическую и пространственную интерпретацию данных, позволяя модели воспринимать вид трехмерной структуры окружающей среды с высоты птичьего полета.

2) Модуль трансформера:

Карты характеристик, полученные из обеих ветвей, подаются на вход модуля трансформера, который осуществляет совместную обработку данных ветвей модальности. Трансформеры представляют собой одну из моделей глубокого обучения. Их архитектура состоит из блоков «кодировщик-декодировщик» и слоев самоконтроля, которые являются отличительной особенностью трансформеров.

При обработке информации механизм самоконтроля позволяет модели упорядочить различные элементы по весам значимости. Трансформер вычисляет оценку значимости для каждого элемента, сравнивая его с остальными. Оценка значимости также определяет вклад всех остальных элементов в представление оцениваемого элемента.

Механизм самоконтроля математически описывается следующим образом: интеграции данных топливно-энергетических балансов, региональных программ газификации, а также информации по работе с потребителями газа в государственные информационные системы;

Задается последовательность входных элементов, определенная как , где n - длина последовательности. Каждый элемент преобразуется в векторы ключа (K), запроса (Q) и значения (V) с помощью изученных линейных проекций:

Здесь , и – матрицы весов. Механизм самоконтроля вычисляет оценку (α) для каждой пары элементов:

где - вектор запроса для элемента , - вектор ключа для элемента , а - размерность вектора ключа. Скалярное произведение масштабируется с учетом , чтобы снизить влияние магнитуд векторов.

Затем полученные оценки обрабатываются функцией softmax, которая вычисляет веса:

Окончательно, механизм самоконтроля сопоставляет веса внимания с векторами значений, чтобы получить выходное представление (AttOut) для каждого элемента:

Полученные выходные представления затем обрабатываются в модели трансформера нейронными сетями прямого распространения.

Механизм самоконтроля трансформера особенно хорошо зарекомендовал себя в задачах беспилотного наземного транспорта. Модель способна улавливать сложные взаимосвязи между объектами и их окружением, например, как позиция и движение автомобиля связаны с позициями других транспортных средств, пешеходов и препятствий.

3) Объединение признаков:

В процессе объединения признаков рассматриваются две модальности, каждая из которых представлена промежуточными картами характеристик размерностью и . Для объединения этих модальностей производится их конкатенация, в результате которой получаем тензор с размерностью:

Полученный тензор содержит входные данные для дальнейшей обработки и проходит через модуль трансформера. Выходом модуля является тензор той же размерности, который затем преобразуется в две карты с размерами, соответствующими исходным картам характеристик, и . Эти карты используются в качестве входов для последующих шагов в каждой модальной ветви. Окончательная карта признаков из каждой ветви подвергается дополнительной обработке. Для уменьшения размерности векторов признаков используется усредняющий слой с преобразованием до размерности 512, что позволяет сохранить важную информацию.

Основная цель настоящего исследования – оценить производительность TransFuser в восприятии специфики новой среды. Вместо интеграции карт признаков обеих модальностей на последнем слое каждая карта подается на соответствующие декодеры трансформеров для вспомогательных задач.

B. Вспомогательные задачи

Вспомогательные задачи в контексте проведенного исследования служат цели улучшения процесса обучения путем ввода дополнительных сигналов или использования техник регуляризации, что в конечном итоге приводит к повышению производительности основной системы. Более того, они позволяют сети осуществлять более устойчивые и обобщаемые представления.

Помимо основной задачи прогнозирования точек маршрута, TransFuser использует четыре вспомогательные функции потерь, которые показали большой потенциал в проведенных исследованиях с участием управляющих агентов:

1) Прогнозирование глубины в 2D. Оценка глубины относится к процессу прогнозирования расстояния до объектов от заданной точки обзора. TransFuser использует метод, называемый 2D оценка глубины, который направлен на оценку глубины на основе двумерных изображений.

2) Семантическая сегментация. Задача заключается в маркировке отдельных пикселей на изображении в соответствии с конкретной семантической категорией, с которой они ассоциируются. Эта техника позволяет модели понимать различные объекты и области, присутствующие на изображении.

3) HD-карта. В TransFuser HD-карта прогнозируется с использованием трехканальной маски сегментации вида с высоты птичьего полета. Эта HD-карта содержит различные классы, такие как маркировка полосы движения, дороги, предоставляя детали о проходимых и непроходимых зонах.

4) Ограничивающие параллелепипеды. Для обнаружения дополнительных транспортных средств TransFuser использует декодер CenterNet для оценки ключевых точек. Он прогнозирует местоположения транспортных средств по характеристикам вида с высоты птичьего полета с использованием сверточного декодера. Обучение включает создание 2D целевой метки с гауссовыми ядрами в центрах объектов. Для решения проблем ориентации транспортных средств используется двухэтапный подход. Сначала TransFuser дискретизирует относительный угол поворота на каждый пиксель. Затем генерируется карта регрессии для размера транспортного средства, смещений положения и смещений ориентации. Обучение учитывает фокусировочные потери, потери перекрестной энтропии и -потери, соответственно, для отображений позиции, регрессии и ориентации.

Оригинальная модель TransFuser изначально обучалась на симуляторе CARLA, виртуальной среде для беспилотных автомобилей.

1) Окружение реального автотранспортного средства. На первом этапе производится оценка производительности модели с использованием набора данных реального автотранспортного средства. Этот критически важный этап направлен на оценку того, насколько эффективно модель может интерпретировать реальные данные по сравнению с синтезированными данными. Хотя симулятор CARLA стремится предоставить реалистичную среду, важно признать ограничения в точном представлении сложности сцен реального мира. Например, одно из ограничений заключается в качестве данных датчиков, генерируемых CARLA, которые могут значительно отличаться от выходных данных реальных датчиков. Это расхождение может проявиться в изменениях в точности, зашумленности, что потенциально может привести к значительным изменениям в поведении модели.

Для оценки был выбран широко используемый набор данных KITTI Vision. В ходе анализа производительности результаты модели TransFuser сравнивались с производительностью ее аналогов, представленными в рейтинге KITTI с использованием стандартизированных метрик. В частности, внимание было сосредоточено на вспомогательных задачах, таких как семантическая сегментация, прогнозирование глубины и прогнозирование ограничивающего параллелепипеда.

2) Симуляция окружения беспилотного транспортного средства. На втором этапе производится оценка производительности модели в среде симулятора, адаптированной для беспилотных судов. Предварительно обученный модуль слияния признаков был окончательно настроен, после чего модель тестировалась на вспомогательных задачах. Этот этап направлен на адаптацию модели к характерным особенностям среды. Модель предварительно была настроена на основе ранее полученной информации и способна различать новые характеристики, типичные для среды, сохраняя при этом понимание общих особенностей, изученных в исходной наземной среде. Использовались данные симулятора, полученные из сценариев управления судном на платформе Unreal Engine 4. При оценке исследуемой модели осуществлялось сравнение с классическим методом трекинга и совместной обработки высокоуровневых сигналов, использованного здесь в качестве эталона для сравнения производительности.

Ранее использованный метод для прогнозирования состояния детектированных объектов на основе измерений и моделей движения использует расширенный фильтр Калмана (EKF). Происходит совместная обработка обнаруженных камерой и лидаром объектов и их сопоставление. Обнаруженные камерой объекты преобразуются в 3D с использованием постобработки, а алгоритм сопоставления находит центр изображения, определяет размеры и классы объектов. Расширенный фильтр Калмана выполняет прогнозирование с учетом влияния зашумленности данных и ошибок измерения. Описанный трекинговый модуль позволяет точнее оценивать состояние объектов и улучшить восприятие окружающей среды бортовой системой транспортного средства.

3) Окружение реального автотранспортного судна. На заключительном этапе производится тестирование модели на реальных данных, полученных бортовыми системами беспилотных транспортных средств. Подобно начальному этапу, требуется оценить производительность модели.

Наборы данных, используемые на каждом этапе экспериментов, исследуются с учетом характеристик, таких как форма ввода/вывода, метки истинных значений и метрики.

Наборы данных KITTI состоят из показаний различных типов датчиков, обычно используемых в системах автономного вождения. Основные источники данных в наборе включают:

- Изображения с камеры. Набор данных предоставляет черно-белые и цветные изображения, снятые камерой высокого разрешения, установленной на транспортном средстве. Эти изображения имеют разрешение 1392 × 512 пикселей.

- Облака точек лидар. Набор данных включает трехмерные данные облака точек, захваченные датчиком LiDAR Velodyne HDL-64E. Точки лидара представлены в форме координат (x, y, z) в системе координат транспортного средства.

Помимо изображений камер и облаков точек лидаров, KITTI также предоставляет данные GPS и IMU, информацию о положении, ориентации и скорости транспортного средства. Однако, в рассматриваемом примере только RGB-изображения и данные лидаров используются в качестве входных данных для модели. На рис. 3 показан пример визуализации входных данных набора данных KITTI.

1) Эталонные данные и метрики. Коллекция KITTI предоставляет эталонные данные для ряда задач, включая отслеживание и обнаружение объектов, сегментацию, а также оценку глубины изображения.

Оценка глубины избражения. Набор данных для этой задачи представлен картами глубины, которые предоставляют информацию о глубине на уровне пикселей. Основные метрики, используемые при оценке этой задачи:

Ошибка SILog:

SILog является распространенной метрикой в компьютерном зрении, особенно в задачах оценки глубины. Это основной показатель, используемый тестом KITTI Vision Benchmark для ранжирования моделей по оценке глубины. SILog можно интерпретировать как среднюю логарифмическую ошибку на пиксель между спрогнозированной и истинной глубиной. Меньшие значения SILog указывают на лучшую оценку глубины.

Отклонение iRMSE:

iRMSE - еще одна метрика, используемая в рейтинге оценки глубины тестом KITTI. Подобно SILog, более низкое значение iRMSE обычно указывает на более качественную модель.

Семантическая сегментация экземпляров. Данные сегментации хранятся в каждом файле в формате изображения PNG, закодированного как 8-битное беззнаковое целое число, при этом значение каждого пикселя обозначает его класс. Коллекция данных KITTI рассматривает 34 класса, поэтому для отображения их на 7 классов, рассматриваемых TransFuser, используется следующий подход:

1) Все классы типа транспортных средств из KITTI (например, автомобиль, грузовик, автобус, поезд и т. д.) помечаются как "транспортное средство".

2) Классы "дорога", "тротуар" и "пешеход" отображаются напрямую.

3) Все остальные классы (включая "разметку полосы" и "красный свет" из TransFuser) считаются "неразмеченными" из-за отсутствия соответствующей метки в наборе данных.

Для оценки задачи семантической сегментации учитывается метрика средней точности (AP), используемая тестом KITTI. Для каждого класса вычисляется средняя точность по области, а затем определяется их среднее значение по шкале порогов перекрытия. Такой подход помогает сгладить любой потенциальный сдвиг в сторону конкретного значения. Диапазон порогов перекрытия включает значения от 0.5 до 0.95 с шагом 0.05. В результате в процессе оценки рассматривается 10 различных порогов перекрытия.

Кроме того, помимо средней точности, также используются дополнительные метрики, включая точность пикселей, точность, полноту и сходство. Они рассчитываются следующим образом:

точность пикселей

точность

полнота

сходство

Указанные метрики позволяют осуществить разностороннюю оценку производительности модели.

Обнаружение объектов. KITTI содержит встроенный инструмент для теста по обнаружению 3D объектов с ограничивающими параллелепипедами транспортных средств и пешеходов. В настоящей работе тест KITTI рассматривается как эталон для оценки производительности модели во вспомогательной задаче ограничивающих параллелепипедов.

Процесс оценки осуществляется на основе вычисления процента обнаруженных ограничивающих параллелепипедов, которые обладают минимальным порогом перекрытия. Для транспортных средств требуется 70% перекрытие, а для пешеходов достаточно 50% перекрытия. Полученная оценка дополнительно разделяется на три различных уровня сложности, учитывающих такие факторы, как минимальная высота ограничивающего параллелепипеда, степень перекрытия объектов и максимальное усечение. Модель TransFuser фокусируется на прогнозировании 2D ограничивающих параллелепипедов с перспективы вида с высоты птичьего полета. Для согласования меток настоящих значений производится проекция на плоскость XY. Это включает в себя вычисление минимального и максимального значения для каждой из координат X и Y по всем восьми углам ограничивающих параллелепипедов эталонных данных. На основе этих координат создаются четыре новые точки: (), (), (), (), которые определяют спроецированный ограничивающий параллелепипед.

B. Данные симулятора судна

Для второго этапа экспериментов были использованы данные, собранные нами в Центре беспилотных технологий Университета Иннополис. Предоставленный набор данных состоит из двух сценариев, каждый из которых содержит около 500 кадров. Каждый кадр описывается пятью файлами:

1) PNG-файл, содержащий RGB-изображение размером 960 × 640, полученное с передней камеры.

2) Файл XYZ, содержащий данные облака точек лидара дл ядистанции 150 метров в формате: X, Y, Z.

3) Файл EXR, содержащий закодированную информацию о глубине изображения в виде изображения размером 960 × 640.

4) PNG-файл, содержащий RGB-изображение размером 960 × 640, представляющее собой сегментацию пикселей на уровне семантики с использованием цветовой кодировки изображения камеры.

5) TXT-файл, содержащий список ограничивающих параллелепипедов в формате: метка, 8 угловых точек в пространстве XYZ, угол поворота. Поскольку модель TransFuser работает с 2D ограничивающими параллелепипедами вида с высоты птичьего полета, ограничивающие параллелепипеды были спроецированы на плоскость XY по тому же принципу, что и ограничивающие параллелепипеды KITTI.

Таким образом, платформа TransFuser продемонстрировала способность адаптироваться к любой среде, показав конкурентоспособную производительность по сравнению с другими известными методами совместной обработки сигналов, полученных с различных датчиков, для беспилотных транспортных средств.

Иллюстрации к изобретению RU 2 841 111 C1

Реферат патента 2025 года Способ управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров

Изобретение относится к способу управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров. Способ включает совместную обработку выходных сигналов датчиков беспилотного транспортного средства. Нейронная сеть обучается непосредственно на входных сигналах датчиков и выводит необходимые управляющие сигналы на основе изученных паттернов. Архитектура сверточной нейронной сети напрямую сопоставляет входные необработанные пиксели изображения с командами управления. Сеть синтеза представляет собой основу архитектуры модели и отвечает за извлечение характеристик окружающей среды. Сеть прогнозирования пути принимает векторы характеристик, предоставленные сетью синтеза, и прогнозирует следующие несколько точек маршрута для транспортного средства. Сеть синтеза разделяется на ветвь изображения и ветвь вида с высоты птичьего полета. Карты характеристик из обеих ветвей подаются на вход модуля трансформера, который осуществляет совместную обработку данных ветвей модальности. Достигается повышение точности и производительности работы бортовых систем беспилотных транспортных средств. 1 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 841 111 C1

1. Способ управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров, включающий совместную обработку выходных сигналов датчиков беспилотного транспортного средства, отличающийся тем, что для управления бортовой системой используют нейронную сеть, которая обучается непосредственно на входных сигналах датчиков и выводит необходимые управляющие сигналы на основе изученных паттернов, для этого архитектура сверточной нейронной сети напрямую сопоставляет входные необработанные пиксели изображения с командами управления, при этом сеть синтеза представляет собой основу архитектуры модели и отвечает за извлечение характеристик окружающей среды, вторая часть - сеть прогнозирования пути, которая принимает векторы характеристик, предоставленные сетью синтеза, и прогнозирует следующие несколько точек маршрута для транспортного средства, затем выходные значения из сети прогнозирования пути подают на пропорционально-интегрально-дифференцирующие регуляторы (ПИД-регуляторы), которые осуществляют управление системами контроля движения транспортного средства, сеть синтеза разделяется на две ветви: ветвь изображения и ветвь вида с высоты птичьего полета, объединенные через модуль трансформера, ветвь изображения получает на вход RGB-изображение и использует серию сверточных кодировщиков для извлечения визуальных характеристик из окружающей среды, кодировщики работают в разных масштабах, захватывая как мелкие детали, так и контекстуальную информацию, полученные карты характеристик содержат визуальные представления, охватывающие различные паттерны, присутствующие на изображении, ветвь вида с высоты птичьего полета принимает в качестве входных данных отображение облака точек, полученных с лидара, которая использует собственный набор сверточных кодировщиков, информация, полученная с лидара, позволяет осуществлять геометрическую и пространственную интерпретацию данных, позволяя модели воспринимать вид трехмерной структуры окружающей среды с высоты птичьего полета, карты характеристик, полученные из обеих ветвей, подаются на вход модуля трансформера, который осуществляет совместную обработку данных ветвей модальности, при этом трансформеры представляют собой одну из моделей глубокого обучения, а их архитектура состоит из блоков «кодировщик-декодировщик» и слоев самоконтроля, при обработке информации механизм самоконтроля позволяет модели упорядочить различные элементы по весам значимости, трансформер вычисляет оценку значимости для каждого элемента, сравнивая его с остальными.

2. Способ управления по п.1, отличающийся тем, что при оснащении беспилотного транспортного средства использованы камеры, лидары и радары.

Документы, цитированные в отчете о поиске Патент 2025 года RU2841111C1

Способ и система для определения траектории автономного транспортного средства	2023	Пономарев Максим Витальевич Орлов Всеволод Николаевич	RU2821107C1
СПОСОБ ПОСТРОЕНИЯ КАРТЫ ГЛУБИНЫ ПО ПАРЕ ИЗОБРАЖЕНИЙ	2022	Маслович Николай Романович Яшунин Дмитрий Александрович Дерендяев Илья Васильевич	RU2806009C2
US 11740358 B2, 29.08.2023
US 2018354423 A1, 13.12.2018
US 11574483 B2, 07.02.2023.

RU 2 841 111 C1

Авторы

Карим Атеф Абдельмагид Абдо Эльдакрури

Хегази Мостафа Айман Ахмед Мохамед

Рашид Бадер

Даты

2025-06-02—Публикация

2024-06-28—Подача

название	год	авторы	номер документа
СПОСОБ ПОСТРОЕНИЯ КАРТЫ ГЛУБИНЫ ПО ПАРЕ ИЗОБРАЖЕНИЙ	2022	Маслович Николай Романович Яшунин Дмитрий Александрович Дерендяев Илья Васильевич	RU2806009C2
Способ и электронное устройство для обнаружения трехмерных объектов с помощью нейронных сетей	2021	Рухович Данила Дмитриевич Воронцова Анна Борисовна Конушин Антон Сергеевич	RU2776814C1
Способы и системы для формирования обучающих данных для обнаружения горизонта и плоскости дороги	2020	Постников Михаил Михайлович Орлов Всеволод Николаевич	RU2767838C1
Способы и системы для определения компьютером наличия объектов	2018	Мурашкин Вячеслав Владимирович Рыков Андрей Олегович	RU2743895C2
СПОСОБ ОБУЧЕНИЯ СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ВОССТАНОВЛЕНИЯ ИЗОБРАЖЕНИЯ И СИСТЕМА ДЛЯ ФОРМИРОВАНИЯ КАРТЫ ГЛУБИНЫ ИЗОБРАЖЕНИЯ (ВАРИАНТЫ)	2018	Анисимовский Валерий Валерьевич Щербинин Андрей Юрьевич Турко Сергей Александрович	RU2698402C1
Способ определения параметров лесного массива	2024	Моргачева Александра Игоревна Овсянников Владимир Сергеевич Исмайылова Юлия Николаевна	RU2828596C1
Способ и процессор для классификации точек на границе многоугольного участка	2023	Юрченко Виктор Сергеевич	RU2836700C1
РАСПОЗНАВАНИЕ ТЕКСТА С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА	2017	Орлов Никита Константинович Рыбкин Владимир Юрьевич Анисимович Константин Владимирович Давлетшин Азат Айдарович	RU2691214C1
СПОСОБ ОЦЕНКИ ГЛУБИНЫ СЦЕНЫ ПО ИЗОБРАЖЕНИЮ И ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ	2020	Романов Михаил Викторович Патакин Николай Андреевич Беликов Илья Игоревич Конушин Антон Сергеевич	RU2761768C1
СИСТЕМА РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЯ: BEORG SMART VISION	2020	Зуев Георгий Алексеевич Колосов Антон Александрович	RU2777354C2