Способ формирования обучающей выборки для систем управления беспилотных электропоездов Российский патент 2022 года по МПК G06K9/62 G06V10/72 G06V10/82 G05D1/00 

Описание патента на изобретение RU2785704C1

Изобретение относится к области технологий глубокого обучения и может быть использовано для формирования обучающей выборки для систем управления беспилотных электропоездов.

Известно техническое решение, в котором создание обучающей выборки предполагает использование аугментации изображения для получения выборки обладающей заданными свойствами. Обрабатывающее устройство формирует одно или более исходных изображений, ассоциированных с обучающей выборкой, для обучения, после чего полученные одно или более первых исходных данных подают на вход первых слоев вычислительных блоков, использующих фильтры изображений. Результат, полученный на выходе первых слоев вычислительных блоков подают на вход второго слоя вычислительных блоков, при этом второй слой использует в процессе вычислений случайные наборы параметров. Полученные параметры искажений с выхода второго слоя вычислительных блоков и результат обработки изображения со второго слоя вычислительных блоков подается на вход третьего слоя вычислительных блоков. Полученный на выходе третьего слоя результат добавляется к обучающей выборке изображений для обучения модели машинного обучения (RU 2716322, G06N 3/08, 11.03.2020).

Основным недостатком этого технического решения является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества. Кроме того, при улучшении качества выборки в данном техническом решении используется только один процесс - аугментация.

В качестве прототипа принято техническое решение по патенту RU 2711125, G06K 9/62, 15.01.2020. Известный способ формирования набора обучающих объектов для алгоритма машинного обучения включает в себя получение из журнала поиска данных о поисковых запросах, каждый из которых связывается с первым набором результатом поиска изображений, формирование вектора признаков для каждого поискового запроса, получение набора меток, каждая из которых указывает на действия пользователя с соответствующим результатом поиска изображений, формирование набора обучающих объектов путем сохранения для каждого подмножества векторов запроса каждого результата поиска изображений в виде обучающего объекта в наборе обучающих объектов.

Основным недостатком этого способа является отсутствие проверки качества полученной выборки и соответственно доведение ее до требуемых критериев качества.

Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

Технический результат достигается тем, что в способе формирования обучающей выборки для систем управления беспилотных электропоездов, заключающемся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, согласно изобретению дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым, завершая ее формирование, при получении значений критериев качества не соответствующих требуемым процесс формирования выборки повторяют с учетом выявленных несоответствий.

Способ формирования обучающей выборки для систем управления беспилотных электропоездов реализуется следующим образом.

Информация об окружающих объектах поступает с оборудования захвата кадров, установленного на подвижном транспортном средстве. В качестве датчиков, сканирующих окружающее пространство, могут быть, например, видеокамера, радар или лидар, используемые либо отдельно, либо совместно. Принятая информация предварительно обрабатывается и записывается в электронную память.

Далее для формирования выборки из записанной в электронную память последовательности кадров разделяют исходную видеопоследовательность на кадры, из которых далее формируют датасет таким образом, чтобы коэффициент корреляции (1) каждого следующего кадра с предыдущим не превышал бы некоторого заданного порога (определяется техническим заданием или параметрами нейронной сети). Сформированный датасет сохраняется в электронной памяти, и далее осуществляют выделение заданных объектов на кадрах, относящихся к обнаруживаемым классам.

где n - размер кадра равный произведению высоты на ширину, x[i] и y[i] значения i-тых пикселей двух последовательных кадров, для которых необходимо вычислить коэффициент корреляции.

При этом набор правил разметки и аннотирования кадров, определяется техническим заданием или требованиями используемой нейронной сети. На основании этих правил на отобранных в выборку кадрах осуществляется выделение объектов, относящихся к обнаруживаемым классам. Для каждого такого объекта информация о переменных класса сохраняется в специальном файле аннотации. В результате получаем сформированный набор размеченных кадров и аннотации к каждому из них. Далее из полученной выборки (набора размеченных кадров) осуществляется отбор случайного подмножества кадров таким образом, чтобы в нем были представлены объекты всех классов в равных количествах. После чего проверяется выполняется ли условие, что количество всех имеющихся в таком подмножестве объектов удовлетворяет критерию полноты.

Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:

где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.

В случае, если условие не выполняется возвращаются назад и повторяют процедуру отбора случайного подмножества кадров до тех пор, пока критерий полноты не выполнится.

При выполнении условия далее для каждого класса обнаруживаемых объектов выполняется проверка соответствия эмпирического распределения всех переменных требуемым законам распределения по критерию согласия, например по критерию согласия Пирсона:

где m - количество интервалов на которых производят оценку частоты реализации переменной класса, n - объем выборки, ni/n - эмпирическая оценка частоты, pi - теоретическая оценка частоты по заданному закону распределения вероятностей,

и в случае отклонения эмпирического распределения от теоретического

производят фильтрацию выбранных кадров.

Далее с полученной выборкой выполняются различные процедуры, позволяющие обеспечить целостность полученной в результате преобразований и дополнений выборки. Для этого вычисляются различные контрольные суммы, хэш-функции или электронная подпись для различных элементов выборки и для файла выборки в целом. Результаты вычисления сохраняются вместе с выборкой и далее выполняется анализ размеченных кадров выборки для расчета значений переменных класса (например средняя яркость, размер объекта, и т.д.), опираясь на результаты анализа размеченных кадров и содержание файла аннотации оценивают критерии качества полученной выборки. Для этого вычисляют по соответствующим стандартным формулам такие критерии качества как полнота, репрезентативность, непротиворечивость, однородность и целостность. Полученные значения проверяют на соответствие требуемым значениям критериев качества. Если они соответствуют процесс доформирования исходной выборки заканчивают и результирующую выборку записывают в отдельную электронную память (блок памяти для итоговой выборки). Если же полученные значения критериев качества не соответствуют требуемым, то процесс доформирования продолжается.

Исходя из количества обнаруженных отклонений в значениях критериев качества оценивается число необходимых дополнительных кадров, которые следует добавить в выборку. В случае необходимости выполняется доразметка уже имеющихся в выборке кадров и/или аугментация и ее повторная обработка в соответствии с вышеприведенной последовательностью действий.

Определения основных критериев качества проверки сформированной выборки:

Репрезентативность

Достаточность: число обучающих примеров должно быть достаточным для обучения. Для достижения нулевой ошибки необходимо, чтобы число обучающих примеров было в несколько раз больше, чем число весов межнейронных связей, в противном случае модель может не приобрести способности к обобщению. Величина зависит от типа нейронной сети, например, для сверточной сети нужно 3000 размеченных изображений для каждого класса объектов для предобученной сети, и 100000-200000 размеченных изображений объектов, относящихся к максимально большому доступному набору классов, превосходящему набор классов для решаемой задачи, для не предобученной сети

Разнообразие: Сочетает два требования:

1. коэффициент разнообразия , где nd - количество изображений с различными сочетаниями объектов разных классов, а N - количество классов объектов, - число сочетаний из N по i.

2. max(R)=0,1, где R - коэффициент попарной корреляции.

равномерность представления классов: 1/N - доля объектов каждого класса в общем количестве объектов в выборке, где N - количество классов объектов.

Полнота обучающей выборки характеризует обеспеченность классов обучающими наборами. Считается, что для каждого класса количество обучающих наборов должно хотя бы в 3-5 раз превосходить количество признаков класса, используемое в этих наборах. Для расчета полноты обучающей выборки можно воспользоваться следующей формулой:

где NF - число классов, удовлетворяющих вышеописанному правилу, а N - общее число классов.

Непротиворечивость выборки определяется количеством обучающих наборов, содержащих объекты, отнесенные к различным классам, но имеющие при этом одинаковые классификационные признаки. Пусть два обучающих набора заданы парами вида - свойства i-го объекта в k-мерном пространстве, образующие вектор входных значений для нейронной сети, а Am - соответственно центроид m-го класса - эталонное значение в обучающем наборе. Тогда - расстояние между центроидами соответственно m-го и n-го классов. А расстояние между объектами этих классов будет вычисляться по следующей формуле:

где , Dak - дисперсия свойства k-го измерения по всей обучающей выборке. Теперь, введя два расстояния: расстояние между объектами и между центроидами классов, к которым они принадлежат, можно определить понятие непротиворечивости. Пусть Cij - парная непротиворечивость - непротиворечивость двух обучающих наборов i-го и j-го, принадлежащих соответственно классам Am и An. Тогда очевидно, что Су возрастает, если возрастает ΔAmn или убывает Δaij. На основании данных рассуждений предложена следующая формула для вычисления Cij:

Согласно этой формуле, непротиворечивость двух объектов лежит в диапазоне [0;1] и достигает максимума при совпадении характеристик объектов, принадлежащих разным классам. Непротиворечивость становится равной нулю в случае, если рассматриваются объекты одного класса. Непротиворечивостью всей обучающей выборки (ОВ) будет среднее всех Cij:

где n - количество всех парных непротиворечивостей в обучающей выборке.

Однородность.

Критерий однородности оценивается при помощи критерия согласия [см. формулу (3)] Если все переменные проходят проверку по критерию согласия, то критерий однородности считается достигнутым.

Целостность.

Для оценки критерия целостности проверяют, что все контрольные суммы верны, если проверка пройдена, критерий качества считается достигнутым.

Похожие патенты RU2785704C1

название год авторы номер документа
СПОСОБ ОБУЧЕНИЯ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ НА ОСНОВЕ РАСПРЕДЕЛЕНИЙ ПОПАРНЫХ МЕР СХОЖЕСТИ 2016
  • Устинова Евгения Сергеевна
  • Лемпицкий Виктор Сергеевич
RU2641447C1
СИСТЕМА И СПОСОБ ФОРМИРОВАНИЯ ОБУЧАЮЩЕГО НАБОРА ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2017
  • Лахман Константин Викторович
  • Чигорин Александр Александрович
  • Юрченко Виктор Сергеевич
RU2711125C2
СПОСОБЫ И СИСТЕМЫ ДЛЯ ОЦЕНКИ ОБУЧАЮЩИХ ОБЪЕКТОВ ПОСРЕДСТВОМ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2017
  • Бурангулов Павел Александрович
RU2672394C1
Автоматическое извлечение именованных сущностей из текста 2014
  • Нехай Илья Владимирович
RU2665239C2
СПОСОБ ДИАГНОСТИРОВАНИЯ КОМПЛЕКСА БОРТОВОГО ОБОРУДОВАНИЯ ВОЗДУШНЫХ СУДОВ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2023
  • Букирёв Александр Сергеевич
  • Савченко Андрей Юрьевич
  • Ипполитов Сергей Викторович
  • Крячков Вячеслав Николаевич
  • Реснянский Сергей Николаевич
RU2816667C1
ГЕНЕРАЦИЯ РАЗМЕТКИ ИЗОБРАЖЕНИЙ ДОКУМЕНТОВ ДЛЯ ОБУЧАЮЩЕЙ ВЫБОРКИ 2017
  • Загайнов Иван Германович
  • Борин Павел Валерьевич
RU2668717C1
СИСТЕМЫ И СПОСОБЫ ОБУЧЕНИЯ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ, А ТАКЖЕ ИСПОЛЬЗОВАНИЕ ОБУЧЕННЫХ ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ 2019
  • Нго Дин, Нхан
  • Эвангелисти, Джулио
  • Навари, Флавио
RU2819619C2
СПОСОБ ДИАГНОСТИРОВАНИЯ КОМПЛЕКСА БОРТОВОГО ОБОРУДОВАНИЯ ВОЗДУШНЫХ СУДОВ НА ОСНОВЕ МАШИННОГО ОБУЧЕНИЯ 2023
  • Букирёв Александр Сергеевич
  • Савченко Андрей Юрьевич
  • Ипполитов Сергей Викторович
  • Крячков Вячеслав Николаевич
  • Реснянский Сергей Николаевич
RU2809719C1
Способ атрибутизации частично структурированных текстов для формирования нормативно-справочной информации 2020
  • Федосин Сергей Алексеевич
  • Плотникова Наталья Павловна
  • Мартынов Владислав Александрович
  • Рыскин Константин Эдуардович
  • Кузнецов Дмитрий Александрович
  • Денискин Александр Владимирович
  • Вечканова Юлия Сергеевна
  • Федюшкин Николай Алексеевич
  • Циликов Никита Сергеевич
RU2750852C1
СПОСОБЫ ВЫБОРА ПРИЗНАКОВ, ИСПОЛЬЗУЮЩИЕ ОСНОВАННЫЕ НА ГРУППЕ КЛАССИФИКАТОРОВ ГЕНЕТИЧЕСКИЕ АЛГОРИТМЫ 2007
  • Чжао Луинь
  • Бороцки Лилла
  • Агнихотри Лалита Э.
  • Ли Майкл К.К.
RU2477524C2

Реферат патента 2022 года Способ формирования обучающей выборки для систем управления беспилотных электропоездов

Изобретение относится к способу машинного обучения, специально адаптированное для изображений. Способ формирования обучающей выборки для систем управления беспилотных электропоездов заключается в приеме информации от сканирующих окружающее пространство датчиков, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации. При этом осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов. Для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров. Далее выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, завершая ее формирование. Технический результат изобретения заключается в повышении качества формирования обучающей выборки.

Формула изобретения RU 2 785 704 C1

Способ формирования обучающей выборки для систем управления беспилотных электропоездов, заключающийся в приеме информации от сканирующих окружающее пространство датчиков, установленных на подвижном транспортном средстве, предварительной обработке полученной информации и записи исходного набора кадров, выделении на кадрах объектов и их классификации, по заранее определенным признакам, отличающийся тем, что дополнительно осуществляют отбор случайного подмножества кадров таким образом, чтобы в нем были объекты всех классов в равных количествах, и проверку требуемого количества всех имеющихся в таком подмножестве объектов, для каждого класса обнаруживаемых объектов выполняют проверку соответствия эмпирического распределения всех переменных требуемому закону распределения и в случае его несоответствия производят фильтрацию выбранных кадров, далее по выбранному алгоритму выполняют формирование дополнительной информации для дальнейшей проверки целостности выборки, после чего осуществляют анализ кадров выборки для расчета значений переменных класса и оценивают критерии качества полученной выборки, такие как полнота, репрезентативность, непротиворечивость, однородность и целостность, и при их соответствии осуществляют запись результирующей выборки, тем самым завершая ее формирование, при получении значений критериев качества, не соответствующих требуемым, процесс формирования выборки повторяют с учетом выявленных несоответствий.

Документы, цитированные в отчете о поиске Патент 2022 года RU2785704C1

СПОСОБЫ И СИСТЕМЫ ФОРМИРОВАНИЯ ОБУЧАЮЩИХ ДАННЫХ ДЛЯ НЕЙРОННОЙ СЕТИ 2020
  • Орлов Всеволод Николаевич
RU2763215C2
СИСТЕМА И СПОСОБ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ В СОСТАВНОМ ОБЪЕКТЕ 2020
  • Сучков Егор Петрович
  • Маргарян Вардан Таронович
  • Алексеенко Григорий Олегович
  • Львов Егор Юрьевич
RU2730112C1
DE 102019105363 A1, 13.08.2020
СИСТЕМА И СПОСОБ ФОРМИРОВАНИЯ ОБУЧАЮЩЕГО НАБОРА ДЛЯ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ 2017
  • Лахман Константин Викторович
  • Чигорин Александр Александрович
  • Юрченко Виктор Сергеевич
RU2711125C2

RU 2 785 704 C1

Авторы

Афанасьева Александра Валентиновна

Беззатеев Сергей Валентинович

Волошина Наталия Викторовна

Даты

2022-12-12Публикация

2022-04-28Подача