УСТРОЙСТВО ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ И НЕКРАТКОВРЕМЕННЫЙ КОМПЬЮТЕРНО-ЧИТАЕМЫЙ НОСИТЕЛЬ, СОХРАНЯЮЩИЙ ПРОГРАММУ ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ Российский патент 2018 года по МПК G06F17/00 G06N5/00 

Описание патента на изобретение RU2657179C1

Уровень техники

1. Область техники, к которой относится изобретение

[0001] Изобретение относится к устройству предоставления информации и к некратковременному компьютерно-читаемому носителю, сохраняющему программу предоставления информации, которая накапливает и изучает данные предыстории по отклику, от пользователя (водителя), на предоставляемую информацию и предоставляет информацию, совпадающую с намерением пользователя (водителя), на основе результата обучения.

2. Описание предшествующего уровня техники

[0002] В качестве этого вида устройства предоставления информации, известно устройство (система пользовательского интерфейса), описанное, например, в WO 2015/162638. В этом устройстве, при выполнении функции звукового ввода, в текущий момент времени сначала оцениваются возможные варианты звуковой операции, которая должна выполняться пользователем (водителем) с использованием информации относительно ситуации транспортного средства, и три из оцененных возможных вариантов звуковой операции отображаются в качестве вариантов в порядке убывания вероятности посредством сенсорной панели. Затем, определяется то, какой из этих вариантов выбран водителем через ввод вручную, и цель звуковой операции определяется. Кроме того, инструкция, которая заставляет пользователя вводить звук, формируется в соответствии с определенной целью звуковой операции и выводится. Далее, водитель вводит звук в соответствии с этой инструкцией, за счет этого определяя и выполняя целевую функцию транспортного средства. Затем ввод звуковой операции, которая совпадает с намерением пользователя, в силу этого предоставляется в соответствии с ситуацией транспортного средства в текущий момент времени, так что уменьшается рабочая нагрузка, налагаемая на пользователя, который вводит звук.

[0003] Однако, в устройстве, описанном в вышеуказанном документе, при выполнении функции транспортного средства, пользовательский интерфейс изменяется из рабочего режима на основе ввода вручную на рабочий режим на основе звукового ввода для вариантов, отображаемых посредством сенсорной панели. Следовательно, нагрузка, налагаемая на водителя, неизбежно увеличивается.

[0004] Кроме того, в устройстве, описанном в вышеуказанном документе, ввод звуковой операции упрощается, но следующая операция реализует не более чем функцию, аналогичную функции существующей речевой диалоговой системы. Следовательно, нагрузка, налагаемая на водителя, должна дополнительно уменьшаться.

Сущность изобретения

[0005] Изобретение предоставляет устройство предоставления информации и некратковременный компьютерно-читаемый носитель, сохраняющий программу предоставления информации, который может формировать более надлежащее предложение вероятных операций для бортового компонента таким образом, что оно совпадает с намерением водителя в качестве предоставления информации при недопущении отвлечения водителя, посредством согласованного использования простого пользовательского интерфейса.

[0006] Устройство предоставления информации согласно первому аспекту изобретения оснащено агентским электронным модулем управления. Агентский ECU имеет модуль составления пространства состояний, модуль составления пространства действий, модуль обучения с подкреплением, модуль вычисления степени дисперсии и модуль предоставления информации. Модуль составления пространства состояний выполнен с возможностью задавать состояние транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составлять пространство состояний в качестве набора из множества состояний. Модуль составления пространства действий выполнен с возможностью задавать, в качестве действия, данные, указывающие содержание операции бортового компонента, которая выполняется через отклик, от водителя, на предложение вероятных операций для бортового компонента и составлять пространство действий в качестве набора из множества действий. Модуль обучения с подкреплением выполнен с возможностью накапливать предысторию отклика, от водителя, на предложение вероятных операций для бортового компонента, задавать функцию вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычислять распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения. Модуль вычисления степени дисперсии выполнен с возможностью вычислять степень дисперсии распределения вероятностей, которое вычисляется посредством модуля обучения с подкреплением. Модуль предоставления информации выполнен с возможностью формировать окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется посредством модуля вычисления степени дисперсии, меньше порогового значения, и формировать предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется посредством модуля вычисления степени дисперсии, равна или выше порогового значения.

[0007] Кроме того, на некратковременном компьютерно-читаемом носителе, сохраняющем программу предоставления информации согласно второму аспекту изобретения, программа предоставления информации программируется с возможностью инструктировать компьютеру реализовывать функцию составления пространства состояний, функцию составления пространства действий, функцию обучения с подкреплением, функцию вычисления степени дисперсии и функцию предоставления информации. Функция составления пространства состояний спроектирована с возможностью задавать состояние транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составлять пространство состояний в качестве набора из множества состояний. Функция составления пространства действий спроектирована с возможностью задавать, в качестве действия, данные, указывающие содержание операции бортового компонента, которая выполняется через отклик, от водителя, на предложение вероятных операций для бортового компонента и составлять пространство действий в качестве набора из множества действий. Функция обучения с подкреплением спроектирована с возможностью накапливать предысторию отклика, от водителя, на предложение вероятных операций для бортового компонента, задавать функцию вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычислять распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения. Функция вычисления степени дисперсии спроектирована с возможностью вычислять степень дисперсии распределения вероятностей, которое вычисляется через функцию обучения с подкреплением. Функция предоставления информации спроектирована с возможностью формировать окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется через функцию вычисления степени дисперсии, меньше порогового значения, и формировать предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется через функцию вычисления степени дисперсии, равна или выше порогового значения.

[0008] В каждом из вышеуказанных первого и второго аспектов изобретения, функция вознаграждения задается в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании предыстории отклика, от водителя, на предложение вероятных операций для бортового компонента. Затем модель принятия решений водителя в отношении предложения вероятных операций для бортового компонента в каждом из состояний структурируется через обучение с подкреплением на основе этой функции вознаграждения. Кроме того, распределение вероятностей содержания операции бортового компонента, которая выполняется через отклик, от водителя, на предложение вероятных операций для бортового компонента в каждом из состояний, вычисляется, при одновременном использовании этой структурированной модели. В данном документе следует отметить, что степень дисперсии распределения вероятностей содержания операции бортового компонента обычно отличается в зависимости от цели предложения вероятных операций для бортового компонента. Например, в случае если цель предложения вероятных операций для бортового компонента представляет собой воспроизведение звука, эта цель, в общем, подвержена настроению водителя в это время и т.п., а также состоянию транспортного средства, и предусмотрено множество вариантов. Следовательно, степень дисперсии распределения вероятностей содержания операции бортового компонента с большой вероятностью является большой. С другой стороны, в случае если цель предложения вероятных операций для бортового компонента представляет собой задание пункта назначения, в общем, проще ограничивать число вариантов из состояния транспортного средства в каждом отдельном случае, по сравнению со случаем воспроизведения звука. Следовательно, степень дисперсии распределения вероятностей содержания операции бортового компонента с большой вероятностью является небольшой. В этом отношении, согласно вышеуказанной конфигурации, когда степень дисперсии распределения вероятностей меньше порогового значения, окончательное предложение вероятных операций формируется в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, формируется без беспокойства водителя в отношении выбора содержания операции бортового компонента. С другой стороны, в вышеуказанной конфигурации, когда степень дисперсии распределения вероятностей равна или выше порогового значения, предложение вероятных операций на основе метода проб и ошибок формируется в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, более адекватно формируется. Таким образом, в вышеуказанной конфигурации, только один содержание операции бортового компонента выводится за один раз в качестве цели предложения вероятных операций, независимо от того, является степень дисперсии распределения вероятностей большой или небольшой. Следовательно, водитель должен только выражать свое желание, т.е. то, следует или нет соглашаться с содержанием операции бортового компонента, которая предлагается в каждом отдельном случае. Следовательно, отклики на различные типы предложений вероятных операций для бортового компонента с различными степенями дисперсии распределения вероятностей, такие как задание пункта назначения и воспроизведение звука, могут согласованно формироваться при одновременном использовании идентичного простого пользовательского интерфейса. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может формироваться при недопущении беспокойства водителя.

[0009] Устройство предоставления информации согласно третьему аспекту изобретения оснащено агентским электронным модулем управления. Агентский ECU имеет модуль составления пространства состояний, модуль составления пространства действий, модуль обучения с подкреплением, модуль вычисления степени дисперсии и модуль предоставления информации. Модуль составления пространства состояний выполнен с возможностью задавать состояние транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составлять пространство состояний в качестве набора из множества состояний. Модуль составления пространства действий выполнен с возможностью задавать, в качестве действия, данные, указывающие содержание операции бортового компонента, которая выполняется через отклик, от водителя, на предложение вероятных операций для бортового компонента и составлять пространство действий в качестве набора из множества действий. Модуль обучения с подкреплением выполнен с возможностью накапливать предысторию отклика, от водителя, на предложение вероятных операций для бортового компонента, задавать функцию вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычислять распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения. Модуль вычисления степени дисперсии выполнен с возможностью вычислять степень дисперсии пространства состояний посредством суммирования степени дисперсии распределения вероятностей, которое вычисляется посредством модуля обучения с подкреплением в отношении множества состояний, составляющих пространство состояний. Модуль предоставления информации выполнен с возможностью формировать окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, меньше порогового значения, и формировать предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, равна или выше порогового значения.

[0010] На некратковременном компьютерно-читаемом носителе, сохраняющем программу предоставления информации согласно четвертому аспекту изобретения, программа предоставления информации программируется с возможностью инструктировать компьютеру реализовывать функцию составления пространства состояний, функцию составления пространства действий, функцию обучения с подкреплением, функцию вычисления степени дисперсии и функцию предоставления информации. Функция составления пространства состояний спроектирована с возможностью задавать состояние транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составлять пространство состояний в качестве набора из множества состояний. Функция составления пространства действий спроектирована с возможностью задавать, в качестве действия, данные, указывающие содержание операции бортового компонента, которая выполняется через отклик, от водителя, на предложение вероятных операций для бортового компонента и составлять пространство действий в качестве набора из множества действий. Функция обучения с подкреплением спроектирована с возможностью накапливать предысторию отклика, от водителя, на предложение вероятных операций для бортового компонента, задавать функцию вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычислять распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения. Функция вычисления степени дисперсии спроектирована с возможностью вычислять степень дисперсии пространства состояний посредством суммирования степени дисперсии распределения вероятностей, которое вычисляется через функцию обучения с подкреплением в отношении множества состояний, составляющих пространство состояний. Функция предоставления информации спроектирована с возможностью формировать окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие, когда степень дисперсии пространства состояний, которая вычисляется через функцию вычисления степени дисперсии, меньше порогового значения, и формировать предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие, когда степень дисперсии пространства состояний, которая вычисляется через функцию вычисления степени дисперсии, равна или выше порогового значения.

[0011] Согласно каждому из вышеуказанных третьего и четвертого аспектов изобретения, функция вознаграждения задается в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании предыстории отклика, от водителя, на предложение вероятных операций для бортового компонента. Затем модель принятия решений водителя в отношении предложения вероятных операций для бортового компонента в каждом из состояний структурируется через обучение с подкреплением на основе этой функции вознаграждения. Кроме того, распределение вероятностей содержания операции бортового компонента, которая выполняется через отклик, от водителя, на предложение вероятных операций для бортового компонента в каждом из состояний, вычисляется, при одновременном использовании этой структурированной модели. В данном документе следует отметить, что степень дисперсии распределения вероятностей содержания операции бортового компонента обычно отличается в зависимости от цели предложения вероятных операций для бортового компонента. Например, в случае если цель предложения вероятных операций для бортового компонента представляет собой воспроизведение звука, эта цель, в общем, подвержена настроению водителя в это время и т.п., а также состоянию транспортного средства, и предусмотрено множество вариантов. Следовательно, степень дисперсии распределения вероятностей содержания операции бортового компонента с большой вероятностью является большой. С другой стороны, в случае если цель предложения вероятных операций для бортового компонента представляет собой задание пункта назначения, в общем, проще ограничивать число вариантов из состояния транспортного средства в каждом отдельном случае, по сравнению со случаем воспроизведения звука. Следовательно, степень дисперсии распределения вероятностей содержания операции бортового компонента с большой вероятностью является небольшой. В этом отношении, согласно вышеуказанной конфигурации, когда степень дисперсии пространства состояний, которая получена из суммированного значения степеней дисперсии распределения вероятностей, меньше порогового значения, окончательное предложение вероятных операций формируется в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, формируется без беспокойства водителя в отношении выбора содержания операции бортового компонента. С другой стороны, в вышеуказанной конфигурации, когда степень дисперсии пространства состояний, которая получена из суммированного значения степеней дисперсии распределения вероятностей, равна или выше порогового значения, предложение вероятных операций на основе метода проб и ошибок формируется в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, более адекватно формируется. Таким образом, в вышеуказанной конфигурации, только один содержание операции бортового компонента выводится за один раз в качестве цели предложения вероятных операций независимо от того, является степень дисперсии пространственного состояния большой или небольшой. Следовательно, водитель должен только выражать свое желание, т.е. то, следует или нет соглашаться с содержанием операции бортового компонента, которая предлагается в каждом отдельном случае. Следовательно, отклики на различные типы предложений вероятных операций для бортового компонента с различными степенями дисперсии пространства состояний, такие как задание пункта назначения и воспроизведение звука, могут согласованно формироваться при одновременном использовании идентичного простого пользовательского интерфейса. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может формироваться при недопущении отвлечения водителя.

[0012] В вышеуказанном втором аспекте изобретения, модуль обучения с подкреплением может приспосабливать, в качестве политики, преобразование из каждого из состояний, составляющих пространство состояний, в каждое из действий, составляющих пространство действий, задавать, в качестве функции-значения состояния, ожидаемое значение кумулятивного вознаграждения, которое получается, когда политики придерживаются в каждом из состояний, оценивать, в качестве функции-значения оптимального действия, ожидаемое значение кумулятивного вознаграждения, которое всегда получается, когда оптимальной политики придерживаются после того, как предварительно определенное действие выбирается из пространства действий в каждом из состояний, составляющих пространство состояний, при условии, что оптимальная политика представляет собой политику, которая максимизирует функцию-значение состояния во всех состояниях, составляющих пространство состояний, и вычислять распределение вероятностей на основе оцененной функции-значения оптимального действия. Модуль предоставления информации может формировать окончательное предложение вероятных операций с выбором в качестве цели действия, которое максимизирует функцию-значение оптимального действия в текущем состоянии, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, меньше порогового значения.

[0013] В вышеуказанной конфигурации, когда степень дисперсии пространства состояний меньше порогового значения, окончательное предложение вероятных операций формируется с выбором в качестве цели действия, которое максимизирует функцию-значение оптимального действия в текущем состоянии, а именно, действия, которое является самым ценным и которое предположительно с наибольшей вероятностью должно осуществляться водителем в текущем состоянии. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может быть реализовано с более высокой надежностью.

[0014] В вышеуказанном устройстве предоставления информации, модуль предоставления информации может быть выполнен с возможностью формировать предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту выбора действия в качестве цели по мере того, как повышается плотность распределения вероятностей для распределения вероятностей действия в текущем состоянии, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, равна или выше порогового значения.

[0015] В вышеуказанной конфигурации, когда степень дисперсии пространства состояний равна или выше порогового значения, предложение вероятных операций на основе метода проб и ошибок формируется с такой тенденцией, чтобы выбирать, в качестве цели предложения вероятных операций для бортового компонента, действие с плотностью высокой вероятности распределения вероятностей в текущем состоянии, а именно, действие, которое с большой вероятностью должно осуществляться водителем в текущем состоянии. Таким образом, даже в условиях, в которых затруднительно указывать действие водителя заранее в отношении предложения вероятных операций для бортового компонента в качестве цели, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может быть реализовано с более высокой надежностью.

[0016] В вышеуказанном устройстве предоставления информации, модуль вычисления степени дисперсии может быть выполнен с возможностью задавать, в качестве энтропии, степень дисперсии распределения вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, и задавать степень дисперсии пространства состояний в качестве средней энтропии. Модуль предоставления информации может быть выполнен с возможностью выбирать окончательное предложение вероятных операций или предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту формирования предложения вероятных операций на основе метода проб и ошибок по мере того, как увеличивается ε-значение, при одновременном использовании ε-жадного метода, в котором значение средней энтропии задается в качестве ε-значения.

[0017] В вышеуказанной конфигурации, частота выбора предложения вероятных операций на основе метода проб и ошибок повышается по мере того, как увеличивается ε-значение в качестве значения средней энтропии, которая задает степень дисперсии пространства состояний, а именно, по мере того, как увеличивается степень дисперсии состояний. Таким образом, также, даже в условиях, в которых затруднительно указывать действие водителя в отношении предложения вероятных операций для бортового компонента в качестве цели, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может быть реализовано с более высокой надежностью.

[0018] В вышеуказанном устройстве предоставления информации, модуль обучения с подкреплением может быть выполнен с возможностью задавать, в качестве функции вознаграждения, частоту выполнения операции бортового компонента через отклик водителя на предложение вероятных операций для бортового компонента и обновлять функцию вознаграждения в соответствии с изменением предыстории работы для операции бортового компонента, когда бортовой компонент управляется в соответствии с предложением вероятных операций для бортового компонента.

[0019] В вышеуказанной конфигурации, функция вознаграждения задается посредством применения частоты действия, которое выполняется через отклик водителя на предложение вероятных операций для бортового компонента, в качестве индекса степени целесообразности предложения вероятных операций бортового компонента в отношении намерения водителя. Функция вознаграждения обновляется каждый раз, когда предыстория отклика изменяется. Таким образом, распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, может вычисляться таким образом, что оно совпадает с намерением водителя. Кроме того, точность распределения вероятностей повышается таким образом, чтобы удовлетворять фактическому отклику, сформированному водителем в качестве человека, по мере того, как увеличивается частота отклика водителя.

[0020] В вышеуказанном устройстве предоставления информации, модуль составления пространства состояний может быть выполнен с возможностью составлять пространство состояний в качестве набора состояний в качестве группы данных, которые ассоциируют ситуацию функционирования бортового компонента, характеристики пассажира или пассажиров транспортного средства и ситуацию при движении транспортного средства между собой.

[0021] В вышеуказанной конфигурации, каждое из состояний, составляющих пространство состояний, задается с учетом элементов, оказывающих влияние на предложение вероятных операций для бортового компонента, которое сформировано для водителя, таких как ситуация функционирования бортового компонента, характеристики пассажира(ов) транспортного средства, ситуация при движении транспортного средства и т.п., с множества точек зрения. Таким образом, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может формироваться таким образом, чтобы более точно удовлетворять фактической обстановке. В этой связи, в вышеуказанной конфигурации, число состояний, составляющих пространство состояний, также оценивается как огромное, в результате учета различных элементов, как описано выше. Тем не менее, с помощью способа обучения с подкреплением, в котором накапливаются данные предыстории, и повышается точность, предложение вероятных операций для бортового компонента, которое совпадает с намерением водителя, может быть реализовано, даже когда огромное количество данных учителя не подготовлено заранее, как в случае, когда, например, используется обучение с помощью учителя.

Краткое описание чертежей

[0022] Ниже описываются признаки, преимущества и техническая и промышленная значимость примерных вариантов осуществления изобретения со ссылкой на прилагаемые чертежи, на которых аналогичные номера обозначают аналогичные элементы, и на которых:

Фиг. 1 является блок-схемой, показывающей общую конфигурацию устройства предоставления информации согласно первому варианту осуществления изобретения;

Фиг. 2 является видом, показывающим пример атрибутов данных транспортного средства, которые задают пространство состояний;

Фиг. 3 является видом, показывающим пример заданного содержания таблицы пространства состояний;

Фиг. 4 является видом, показывающим другой пример атрибутов данных транспортного средства, которые задают пространственное состояние;

Фиг. 5 является видом, показывающим другой пример заданного содержания таблицы пространства состояний;

Фиг. 6 является видом, показывающим пример заданного содержания таблицы пространства действий;

Фиг. 7 является видом, показывающим другой пример заданного содержания таблицы пространства действий;

Фиг. 8 является видом, показывающим пример матрицы вероятностей перехода при осуществлении каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний;

Фиг. 9 является графиком, показывающим пример кумулятивной функции распределения, которая используется при формировании предложения вероятных операций на основе метода проб и ошибок;

Фиг. 10A является видом, показывающим пример атрибутов данных транспортного средства, которые задают текущее состояние;

Фиг. 10B является видом для иллюстрации процесса выбора действия, которое используется для окончательного предложения вероятных операций в состоянии, показанном на фиг. 10A;

Фиг. 11A является видом, показывающим другой пример атрибутов данных транспортного средства, которые задают текущее состояние;

Фиг. 11B является видом для иллюстрации процесса выбора действия, которое используется для предложения вероятных операций на основе метода проб и ошибок в состоянии, показанном на фиг. 11A;

Фиг. 12 является видом, показывающим пример переключателя на руле;

Фиг. 13 является блок-схемой последовательности операций способа, показывающей содержание обработки процесса формирования предложений вероятных операций бортовых компонентов в качестве примера процесса предоставления информации;

Фиг. 14 является видом, показывающим пример содержания диалога, который ведется между агентским ECU и водителем таким образом, что он включает в себя окончательное предложение вероятных операций;

Фиг. 15 является видом, показывающим пример содержания диалога, который ведется между агентским ECU и водителем таким образом, что он включает в себя предложение вероятных операций на основе метода проб и ошибок;

Фиг. 16 является видом для иллюстрации процесса выбора окончательного предложения вероятных операций и предложения вероятных операций на основе метода проб и ошибок в устройстве предоставления информации согласно второму варианту осуществления изобретения;

Фиг. 17 является видом, показывающим другой пример переключателя на руле; и

Фиг. 18 является видом, показывающим еще один другой пример переключателя на руле.

Подробное описание вариантов осуществления

[0023] Первый вариант осуществления

Далее описывается устройство предоставления информации согласно первому варианту осуществления изобретения. Устройство предоставления информации согласно настоящему варианту осуществления изобретения сконструировано посредством агентского ECU (электронного модуля управления), который монтируется в транспортном средстве и который формирует предложение вероятных операций для бортовых компонентов в качестве предоставления информации водителю. В данном документе следует отметить, что функции агентского ECU широко классифицируются на функции системы обучения, функции системы получения информации и функции системы пользовательского интерфейса. Кроме того, агентский ECU выполняет обучение с подкреплением в качестве режима обучения в системе обучения при классификации предыстории работы бортовых компонентов согласно состоянию транспортного средства в каждом отдельном случае, на основе различных фрагментов информации, полученных через систему получения информации, и формирует предложение вероятных операций для бортовых компонентов через систему пользовательского интерфейса на основе результата обучения, полученного через обучение с подкреплением. В данном документе следует отметить, что обучение с подкреплением представляет собой способ обучения, в котором агентский ECU адаптируется к окружению через методы проб и ошибок посредством предоставления некоторого вознаграждения агентскому ECU по мере того, как изменяется окружение на основе определенных действий, когда агентский ECU выбирает это действие на основе окружения. В этой связи, в настоящем варианте осуществления изобретения, агентский ECU задает состояние посредством ассоциирования различных данных транспортного средства, например, ситуации функционирования бортовых компонентов, характеристик пассажира или пассажира(ов) транспортного средства, ситуации при движении транспортного средства и т.п. между собой и составляет пространство состояний в качестве набора из множества состояний. Кроме того, агентский ECU задает, в качестве действия, тип операции бортовых компонентов, которая может выполняться посредством агентского ECU вместо водителя, когда водитель предоставляет отклик на предложение вероятных операций и составляет пространство действий в качестве набора из множества действий. Помимо этого, предыстория работы бортовых компонентов, которая выполнена в качестве отклика на предложение вероятных операций для бортовых компонентов в каждом из состояний, составляющих пространство состояний, является эквивалентной вознаграждению при обучении с подкреплением. Кроме того, агентский ECU вычисляет распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, посредством выполнения вышеуказанного обучения с подкреплением. Кроме того, агентский ECU прогнозирует действие, которое с большой вероятностью должно осуществляться водителем из состояния транспортного средства в каждом отдельном случае, на основе такого вычисленного распределения вероятностей и формирует предложение вероятных операций для бортовых компонентов с учетом результата прогнозирования.

[0024] Во-первых, описывается конфигурация устройства согласно настоящему варианту осуществления изобретения со ссылкой на чертежи. Как показано на фиг. 1, агентский ECU 100 имеет модуль 110 управления, который управляет предложением вероятных операций для бортовых компонентов, и модуль 120 хранения, который сохраняет программу предоставления информации, которая выполняется посредством модуля 110 управления при формировании предложения вероятных операций для бортовых компонентов, и различные данные, которые считываются и записываются посредством модуля 110 управления при выполнении программы предоставления информации. В данном документе следует отметить, что различные данные, которые сохраняются в модуле 120 хранения, включают в себя таблицы T1 и T1α пространства состояний, которые задают пространство состояний, таблицы T2 и T2α пространства действий, которые задают пространство действий, и предысторию RA работы бортовых компонентов. Каждая из таблиц пространства состояний выступает в качестве модуля составления пространства состояний, а каждая из таблиц пространства действий выступает в качестве модуля составления пространства действий. В этой связи, в настоящем варианте осуществления изобретения, множество типов услуг, например, воспроизведение звука, задание пункта назначения, настройка кондиционера, настройка позиции сиденья, настройка зеркал, настройка стеклоочистителей и т.п., доступно в качестве целей предложения вероятных операций. Кроме того, отдельные таблицы T1 пространства и T1α состояний и отдельные таблицы T2 и T2α пространства действий сохраняются в модуле 120 хранения агентского ECU 100 для каждого из этих типов услуг.

[0025] Фиг. 2 показывает пример атрибутов данных транспортного средства, которые используются для того, чтобы задавать состояние при задании пункта назначения в качестве примера предложения вероятных операций. В данном документе следует отметить, что атрибуты данных транспортного средства регистрируются заранее в качестве элементов, участвующих в способе задания пункта назначения, и включают в себя данные транспортного средства по ситуации функционирования DA бортовых компонентов, характеристикам DB пассажира или пассажиров транспортного средства и ситуации DC при движении транспортного средства в примере, показанном на чертеже. В этой связи, пункт DA1 назначения, показания DA2 часов, день DA3 недели и текущее местоположение DA4 упоминаются в качестве примера данных транспортного средства по ситуации функционирования DA бортовых компонентов. Кроме того, присутствие или отсутствие супруга DB1, присутствие или отсутствие ребенка или детей DB2, число попутчиков DB3, присутствие или отсутствие хобби DB4 и цель DB5 упоминаются в качестве примера данных транспортного средства по характеристикам DB пассажира(ов) транспортного средства. Кроме того, дорожная ситуация DC1 (степень затора) и погода DC2 упоминаются в качестве примера данных транспортного средства по ситуации DC при движении транспортного средства.

[0026] Затем, как показано на фиг. 3, таблица T1 пространства состояний задает состояние посредством комбинирования атрибутов данных транспортного средства, показанных на фиг. 2, между собой круговым способом и составляет пространство состояний в качестве набора из множества состояний. В данном документе следует отметить, что число m состояний, включенных в таблицу T1 пространства состояний (например, приблизительно четыре миллиона), увеличивается по мере того, как увеличивается число типов элементов, составляющих атрибуты данных транспортного средства (11 типов, включающих в себя "пункт назначения" и "погоду", как упомянуто последовательно слева в примере, показанном на фиг. 2) или число параметров каждого из элементов (например, 8 в качестве числа параметров "пункта назначения" в примере, показанном на фиг. 2).

[0027] С другой стороны, фиг. 4 показывает пример атрибутов данных транспортного средства, которые используются для того, чтобы задавать состояние при воспроизведении звука в качестве примера предложения вероятных операций. В данном документе следует отметить, что атрибуты данных транспортного средства регистрируются заранее в качестве элементов, участвующих в способе воспроизведения звука, и включают в себя данные транспортного средства по ситуации функционирования DAα бортовых компонентов, характеристикам DBα пассажира или пассажиров транспортного средства и ситуации DCα при движении транспортного средства. В этой связи, источник DA1α звука, задание повтора DA2α, громкость DA3α звука, показания DA4α часов, день DA5α недели и текущее местоположение DA6α упоминаются в качестве примера данных транспортного средства по ситуации функционирования DAα бортовых компонентов. Кроме того, присутствие или отсутствие супруга DB1α, присутствие или отсутствие ребенка или детей DB2α, число попутчиков DB3α и степень DB4α сонливости водителя упоминаются в качестве примера данных транспортного средства по характеристикам DBα пассажира(ов) транспортного средства. Кроме того, окружение DC1α, включающее в себя степень урбанизации или субурбанизации вокруг транспортного средства и окружение дороги, упоминается в качестве примера данных транспортного средства по ситуации DCα при движении транспортного средства.

[0028] Затем, как показано на фиг. 5, таблица T1α пространства состояний задает состояние посредством комбинирования атрибутов данных транспортного средства, показанных на фиг. 4, между собой круговым способом и составляет пространство состояний в качестве набора из множества состояний. Также в этом случае, число n состояний, включенных в таблицу T1α пространства состояний (например, приблизительно 1,5 миллиарда), увеличивается по мере того, как увеличивается число типов элементов, составляющих атрибуты данных транспортного средства, или число параметров каждого из элементов.

[0029] Фиг. 6 показывает пример таблицы T2 пространства действий, которая задает действие в то время, когда агентский ECU 100 задает пункт назначения вместо водителя в качестве примера предложения вероятных операций, и которая составляет пространство действий в качестве набора из множества действий. В примере, показанном на чертеже, список названий мест для пунктов назначения, которые должны задаваться, упоминается в качестве типов действий, включенных в пространство действий. В данном документе следует отметить, что места в качестве пунктов назначения, которые должны задаваться, регистрируются заранее в качестве, например, названия мест, особенно часто задаваемых водителем ранее. В примере, показанном на чертеже, регистрируется всего 8 названий мест, а именно, "место 1"-"место 6", а также "собственный дом" и "родительский дом".

[0030] Кроме того, фиг. 7 показывает пример таблицы T2α пространства действий, которая задает действие в то время, когда агентский ECU 100 воспроизводит звук вместо водителя в качестве примера предложения вероятных операций, и которая составляет пространство действий в качестве набора из множества действий. В примере, показанном на чертеже, список источников звука, которые должны воспроизводиться, упоминается в качестве типов действий, включенных в пространство действий. В данном документе следует отметить, что источники звука, которые должны воспроизводиться, регистрируются заранее в качестве, например, источников звука, особенно часто воспроизводимых водителем ранее. В примере, показанном на чертеже, регистрируются всего 100 источников звука, включающих в себя названия радиостанций и заголовки песен, сохраненные на носителях хранения данных, таких как портативный терминал, компакт-диски (CD) и т.п.

[0031] Кроме того, как показано на фиг. 1, агентский ECU 100 соединяется с группой 130 дополнительных ECU, группой 131 датчиков и группой 132 переключателей через бортовую сеть NW, которая выполнена в виде, например, контроллерной сети (CAN) и т.п.

[0032] Группа 130 дополнительных ECU состоит из бортовых ECU, которые управляют режимом работы различных бортовых компонентов. Группа 130 дополнительных ECU включает в себя бортовой ECU приводной системы транспортного средства, который управляет двигателем, тормозом, рулем и т.п., бортовой ECU системы кузова, который управляет кондиционером, измерителями, и т.п., и бортовой ECU информационной системы, который управляет автомобильной навигационной системой, аудиосистемой и т.п.

[0033] Группа 131 датчиков представляет собой группу датчиков для получения различных данных транспортного средства. Группа 131 датчиков включает в себя датчик на основе глобальной системы позиционирования (GPS), лазерный радар, инфракрасный датчик, ультразвуковой датчик, датчик капель дождя, датчик температуры наружного воздуха, датчик температуры в салоне транспортного средства, датчик сиденья, датчик состояния крепления ремня безопасности, камеру в салоне транспортного средства, датчик интеллектуального ключа (интеллектуального ключа ®), датчик мониторинга проникновений, датчик для обнаружения миниатюрных частиц, таких как аллергенные частицы и т.п., датчик ускорения, датчик интенсивности электрического поля, монитор состояния водителя, датчик скорости транспортного средства, датчик угла поворота при рулении, датчик скорости относительно вертикальной оси и биологический нательный датчик.

[0034] Группа 132 переключателей представляет собой группу переключателей для переключения операций различных бортовых компонентов. Группа 132 переключателей включает в себя рычажный переключатель включения указателя поворота, рабочий переключатель стеклоочистителя, рабочий переключатель фар, переключатель на руле, рабочий переключатель навигационной/аудиосистемы, рабочий переключатель окон, переключатель замка для открытия/закрытия двери/багажника, рабочий переключатель кондиционера, переключатель режима обогрева/вентиляции сиденья, переключатель регулирования/запоминания позиции сиденья, переключатель режима работы системы мониторинга проникновений, рабочий переключатель зеркал, переключатель режима работы адаптивной системы оптимального регулирования скорости (ACC) и переключатель двигателя.

[0035] Затем когда различные данные транспортного средства вводятся в модуль 110 управления агентского ECU 100 из этой группы 130 дополнительных ECU, этой группы 131 датчиков и этой группы 132 переключателей через бортовую сеть NW, модуль 110 управления агентского ECU 100 узнает релевантное состояние транспортного средства со ссылкой на таблицы T1 и T1α пространства состояний, которые сохраняются в модуле 120 хранения. Кроме того, модуль 110 управления агентского ECU 100 кумулятивно прибавляет значение счетчика предыстории работы, соответствующей релевантному состоянию, в качестве предыстории RA работы бортовых компонентов, которая сохраняется в модуле 120 хранения, каждый раз, когда предварительно определенное действие выбирается из действий, включенных в пространство действий через отклик водителя на предложение вероятных операций для бортовых компонентов, и операция бортовых компонентов выполняется. В этом отношении, модуль 110 управления агентского ECU 100 накапливает данные предыстории по отклику водителя на предложение вероятных операций для бортовых компонентов в каждом из состояний, составляющих пространство состояний.

[0036] Кроме того, модуль 110 управления агентского ECU 100 выступает в качестве модуля 111 обучения с подкреплением, который выполняет Q-обучение в качестве типа обучения с подкреплением через следующую процедуру (этапы 1-7), при задании, в качестве функции вознаграждения, значения счетчика предыстории работы бортовых компонентов при подтверждении предложения вероятных операций, для каждого из состояний, распознанных так, как описано выше.

[0037] На этапе 1, когда политика π задается как преобразование из каждого из состояний, составляющих пространство состояний, в каждое из действий, составляющих пространство действий, первоначально задается произвольная политика π. На этапе 2, наблюдается текущее состояние st (t обозначает временной шаг). На этапе 3, действие at выполняется согласно произвольному способу выбора действия (t обозначает временной шаг). На этапе 4, принимается вознаграждение rt (t обозначает временной шаг). На этапе 5, состояние s(t+1) после перехода состояния наблюдается (исходя из того (так называемое марковское свойство), что переход в состояние s(t+1) зависит только от состояния st и действия в это время и не подвержен предыдущему состоянию или предыдущему действию). На этапе 6, обновляется функция-значение Q(st, at) действия. На этапе 7, временной шаг t переходит в (t+1), чтобы выполнять возврат к этапу 1.

[0038] В этой связи, можно использовать жадный метод, в котором неизбежно выбирается действие, которое максимизирует значение функции-значения Q(st, at) действия, которая описывается ниже, или наоборот, случайный метод, в котором все действия выбираются с идентичной вероятностью, в качестве способа выбора действия в процедуре этапа 3. Помимо этого, также можно использовать ε-жадный метод, в котором действие выбирается согласно случайному методу с вероятностью ε, и действие выбирается согласно жадному методу с вероятностью (1-ε), метод выбора Больцмана, в котором действие, функция-значение Q(st, at) действия которого является высокой, выбирается с высокой вероятностью, и действие, функция-значение Q(st, at) действия которого является низкой, выбирается с низкой вероятностью и т.п.

[0039] Кроме того, функция-значение Q(st, at) действия обновляется в процедуре этапа 6, на основе выражения (1), показанного ниже.

Q(st, at)=(1-α)Q(st, at)+α(rt+γmaxat+1∈AQ(st+1, at+1))... (1)

[0040] В этой связи, в выражении (1), темп α обучения задается в диапазоне числовых значений 0<α<1. Это служит для цели обеспечения большой вероятности сходимости значения функции-значения Q(st, at) действия посредством постепенного уменьшения величины увеличения функции-значения Q(st, at) действия, которая обновляется во времени. Кроме того, справедливо и то, что в выражении (1), Q(st, at) обозначает вышеуказанную функцию-значение действия и представляет ожидаемое значение кумулятивного вознаграждения Rt со скидкой, которое получается в случае, если политики π придерживаются после осуществления действия at в состоянии st, исходя из того, что модуль 111 обучения с подкреплением приспосабливает определенную политику π независимо от промежутка времени. В данном документе следует отметить, что кумулятивное вознаграждение Rt со скидкой является суммой вознаграждений, которые получаются, когда переход состояния повторяется. Кумулятивное вознаграждение Rt со скидкой получается из выражения (2), показанного ниже.

[0041] В этой связи, в выражении (2) (а также в выражении (1)), процент γ скидки задается в числовом диапазоне 0<γ<1. Это служит для цели обеспечения большой вероятности сходимости значения кумулятивного вознаграждения Rt со скидкой посредством постепенного уменьшения значения вознаграждения, которое получается во времени.

[0042] Затем после этого, модуль 111 обучения с подкреплением вычисляет функцию-значение Q*(st, at) оптимального действия, которая максимизирует (оптимизирует) функцию-значение Q(st, at) действия, посредством повторного выполнения процедуры из вышеуказанных этапов 1-7. В данном документе следует отметить, что функция-значение Q*(st, at) оптимального действия представляет ожидаемое значение кумулятивного вознаграждения Rt со скидкой, которое получается в случае, если оптимальной политики π* придерживаются после выбора действия at в состоянии st, когда функция-значение V(st) состояния задается как функция, которая представляет ожидаемое значение кумулятивного вознаграждения Rt со скидкой, которое получается в случае, если политики π придерживаются в состоянии st, и оптимальная политика π* задается как политика π, которая удовлетворяет V(st)≥V'(st) во всех состояниях st.

[0043] Затем модуль 111 обучения с подкреплением назначает функцию-значение Q*(st, at) оптимального действия, полученную так, как описано выше, выражению (3), показанному ниже. Таким образом, вычисляется матрица вероятностей перехода, которая максимизирует кумулятивное вознаграждение Rt со скидкой, из числа матриц вероятности перехода из каждого из состояний, составляющих пространство состояний, в каждое из действий, составляющих пространство действий, а именно, матрица P(st, at) вероятностей перехода, которая совпадает с намерением водителя с учетом значения счетчика предыстории RA работы для каждого из состояний.

[0044] Фиг. 8 показывает пример матрицы P(st, at) вероятностей перехода, которая вычисляется так, как описано выше. Каждая строка матрицы P(st, at) вероятностей перехода соответствует каждому из состояний, составляющих пространство состояний, а каждый столбец матрицы P(st, at) вероятностей перехода соответствует каждому из действий, составляющих пространство действий. Кроме того, в примере, показанном на чертеже, например, вероятность осуществления действия a1 в состоянии s1 составляет 0,01. Справедливо и то, что вероятность осуществления действия a2 в состоянии s1 составляет 0,10. Справедливо и то, что вероятность осуществления действия a100 в состоянии s1 составляет 0,03.

[0045] Затем модуль 110 управления агентского ECU 100 вычисляет энтропию H(s) информации при одновременном использовании выражений, показанных на фиг. 8, когда эти вероятности обозначаются посредством p. В этой связи, энтропия H(s) информации представляет собой параметр, который служит в качестве индекса степени дисперсии распределения вероятностей. В этом отношении, модуль 110 управления агентского ECU 100 также выступает в качестве модуля 112 вычисления степени дисперсии, который вычисляет степень дисперсии распределения вероятностей, которое вычисляется посредством модуля 111 обучения с подкреплением. Затем подразумевается то, что по мере того, как увеличивается значение энтропии H(s) информации, увеличивается степень дисперсии распределения вероятностей, а именно, увеличивается степень гомогенности распределения вероятностей осуществления соответствующих действий, составляющих пространство действий, в состоянии st. Следовательно, в случае если значение энтропии H(s) информации является большим, затруднительно прогнозировать действие, которое может осуществляться водителем, из действий, составляющих пространство действий.

[0046] Кроме того, модуль 112 вычисления степени дисперсии вычисляет среднюю энтропию H(Ω) посредством суммирования энтропий H(s) информации, вычисляемых в отношении соответствующих состояний, составляющих пространство состояний, как указано посредством выражения (4), показанного ниже.

[0047] В этой связи, средняя энтропия H(Ω) представляет собой параметр, указывающий степень дисперсии пространства состояний. Затем подразумевается то, что по мере того, как увеличивается значение средней энтропии H(Ω), увеличивается степень дисперсии пространства состояний, а именно, увеличивается степень гомогенности вероятностей осуществления соответствующих действий, составляющих пространство действий, в каждом из состояний, когда пространство состояний рассматривается в целом. Следовательно, значение средней энтропии H(Ω) представляет собой индекс, указывающий то, можно или нет прогнозировать действие, которое может осуществляться водителем, из действий, составляющих пространство действий, в отношении услуг в качестве целей предложения вероятных операций.

[0048] Таким образом, модуль 110 управления агентского ECU 100 также выступает в качестве модуля 113 формирования предлагаемой информации, который формирует информацию относительно предложения вероятных операций для бортовых компонентов, при одновременном использовании ε-жадного метода, в котором средняя энтропия H(Ω), полученная посредством модуля 111 обучения с подкреплением, используется в качестве ε-значения, согласно алгоритму, показанному ниже. Модуль формирования предлагаемой информации также выступает в качестве модуля предоставления информации.

ε=H(Ω)

δ=rand(1)

if δ>ε

else δ≤ε

τ=rand(2)

[0049] В этой связи, в вышеуказанном алгоритме, модуль 113 формирования предлагаемой информации задает случайное число δ (пороговое значение), которое допускает диапазон числовых значений от 0 до 1, и применяет выражение (5), когда удовлетворяется условие δ>ε. Таким образом, модуль 113 формирования предлагаемой информации повышает частоту применения выражения (5) по мере того, как снижается значение средней энтропии H(Ω), полученное посредством модуля 111 обучения с подкреплением. Затем модуль 113 формирования предлагаемой информации выводит, в качестве цели предложения вероятных операций, действие a, которое максимизирует функцию-значение Q*(st, at) оптимального действия, полученную посредством модуля 111 обучения с подкреплением, как описано выше, а именно, самое ценное действие в состоянии s, через применение выражения (5), и формирует окончательное предложение вероятных операций.

[0050] С другой стороны, в вышеуказанном алгоритме, модуль 113 формирования предлагаемой информации применяет выражение (6), когда удовлетворяется условие δ≤ε. Таким образом, модуль 113 формирования предлагаемой информации повышает частоту применения выражения (6) по мере того, как увеличивается значение средней энтропии H(Ω), полученное посредством модуля 111 обучения с подкреплением. При применении выражения (6), модуль 113 формирования предлагаемой информации сначала получает кумулятивную функцию F(s) распределения посредством суммирования вероятностей осуществления соответствующих действий, составляющих пространство действий, в определенном состоянии s. Затем когда случайное число τ, которое допускает диапазон числовых значений от 0 до 1, задается в качестве переменной, отличающейся от вышеуказанного случайного числа δ, модуль 113 формирования предлагаемой информации формирует предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выводить, в качестве цели предложения вероятных операций, действие, которое удовлетворяет условию F(s)=τ.

[0051] Как также очевидно из кумулятивной функции F(s) распределения, показанной на фиг. 9 в качестве примера, величина увеличения кумулятивной функции F(s) распределения также колеблется в соответствии с вероятностью осуществления каждого из действий, составляющих пространство действий. Строго говоря, величина кумулятивной функции F(s) распределения резко увеличивается на участке вдоль оси абсцисс, который соответствует действиям с относительно высокой вероятностью, тогда как величина кумулятивной функции F(s) распределения также плавно увеличивается на участке вдоль оси абсцисс, который соответствует действиям с относительно низкой вероятностью. Следовательно, когда случайное число τ изменяется в диапазоне числовых значений от 0 до 1, действия с относительно высокой вероятностью с большей вероятностью должны удовлетворять условию F(s)=τ, и действия с относительно низкой вероятностью, менее вероятно, удовлетворят условию F(s)=τ. Соответственно, как описано выше, когда каждое из действий, удовлетворяющих условию F(s)=τ, выводится в качестве цели предложения вероятных операций, это действие выводится с такой тенденцией, чтобы повышать частоту выбора этого действия по мере того, как повышается его вероятность. В этой связи, в примере, показанном на чертеже, соответствующее действие в то время, когда условие F(s)=τ удовлетворяется, представляет собой действие a3'. Следовательно, действие a3' выбирается в качестве целевого действия предложения вероятных операций из множества действий, составляющих пространство действий, и выводится.

[0052] Фиг. 10A и 10B показывают конкретные примеры для иллюстрации выбора окончательного предложения вероятных операций или предложения вероятных операций на основе метода проб и ошибок с помощью ε-жадного метода при задании пункта назначения в качестве предложения вероятных операций.

[0053] В этом примере, как показано на фиг. 10A, агентский ECU 100 сначала извлекает то из соответствующих состояний, составляющих пространство состояний в таблице T1 пространства состояний, которое является релевантным для текущего состояния (извлекает это состояние в качестве состояния si на чертеже), на основе различных данных транспортного средства, которые получаются через бортовую сеть NW. Затем в этом примере, существует ситуация, когда средняя энтропия H(Ω), которая получается из матрицы P(st, at) вероятностей перехода, является относительно высокой, и частота формирования окончательного предложения вероятных операций, к которому применяется вышеуказанное выражение (5), является высокой. В этом случае, как показано на фиг. 10B, агентский ECU 100 выводит, в качестве цели предложения вероятных операций, самое ценное действие в текущем состоянии ("собственный дом" в примере, показанном на чертеже) из числа соответствующих действий, составляющих пространство действий.

[0054] Кроме того, фиг. 11A и 11B показывают конкретный пример для иллюстрации выбора окончательного предложения вероятных операций или предложения вероятных операций на основе метода проб и ошибок с помощью ε-жадного метода при воспроизведении звука в качестве предложения вероятных операций.

[0055] В этом примере также, как показано на фиг. 11A, агентский ECU 100 сначала извлекает то из соответствующих состояний, составляющих пространство состояний, в таблице T1α пространства состояний, которое является релевантным для текущего состояния (извлекает это состояние в качестве состояния Sj на чертеже), на основе различных данных транспортного средства, которые получаются через бортовую сеть NW. Затем в этом примере, существует ситуация, когда средняя энтропия H(Ω), которая получается из матрицы P(st, at) вероятностей перехода, является относительно низким, и частота формирования предложения вероятных операций на основе метода проб и ошибок, к которому применяется вышеуказанное выражение (6), является высокой. В этом случае, как показано на фиг. 11B, агентский ECU 100 случайно выводит каждое из действий, составляющих пространство действий, в качестве цели предложения вероятных операций с такой тенденцией, чтобы повышать частоту выбора действия по мере того, как повышается плотность распределения вероятностей для вероятности перехода действия из текущего состояния ("FMD" в примере, показанном на чертеже).

[0056] Затем агентский ECU 100 формирует предложение вероятных операций для бортовых компонентов через звук или изображение, посредством передачи информации относительно такого выводимого действия в качестве цели предложения вероятных операций в модуль 140 звукового вывода, к примеру, в динамик и т.п., или в модуль 141 вывода изображений, к примеру, в жидкокристаллический дисплей (ЖК-дисплей), дисплей на лобовом стекле (HUD) и т.п. через бортовую сеть NW.

[0057] Кроме того, агентский ECU 100 также выступает в качестве модуля 114 обнаружения управляющих сигналов, который обнаруживает отклик, от водителя, на предложение вероятных операций посредством приема, через бортовую сеть NW, управляющего сигнала функционального ввода или звукового ввода через модуль 142 функционального ввода, такой как переключатель на руле, микрофон и т.п.

[0058] Фиг. 12 является видом для иллюстрации примера функционального ввода через переключатель на руле. В примере, показанном на чертеже, переключатель 142A на руле имеет четыре функциональных кнопки BA1-BA4. Из этих функциональных кнопок, первая функциональная кнопка BA1, которая расположена выше, и вторая функциональная кнопка BA2, которая расположена ниже, выделяются в качестве функциональных кнопок, которые нажимаются при отклике на предложение вероятных операций из агентского ECU 100. В таком случае первая функциональная кнопка BA1 нажимается при подтверждении предложения вероятных операций, а вторая функциональная кнопка BA2 нажимается, наоборот, при отклонении предложения вероятных операций. Кроме того, из этих функциональных кнопок, третья функциональная кнопка BA3, которая расположена слева, и четвертая функциональная кнопка BA4, которая расположена справа, выделяются в качестве функциональных кнопок, которые нажимаются при управлении бортовыми компонентами независимо от предложения вероятных операций из агентского ECU 100. В таком случае третья функциональная кнопка BA3 нажимается, когда водитель управляет бортовыми компонентами через ввод вручную, а четвертая функциональная кнопка BA4 нажимается, когда водитель управляет бортовыми компонентами с высокой частотой независимо от состояния транспортного средства в каждом отдельном случае. В этой связи, четвертая функциональная кнопка BA4 может выделяться в качестве функциональной кнопки, которая нажимается, когда информация относительно операции бортовых компонентов, выполняемой ранее другим водителем в идентичной ситуации с данной, получается из внешнего сервера и предоставляется для водителя.

[0059] Затем после обнаружения управляющего сигнала через модуль 114 обнаружения управляющих сигналов, модуль 110 управления агентского ECU 100 активирует передачу инициирующего сигнала из модуля 115 инициирования обновления обучения в модуль 111 обучения с подкреплением. В этой связи, в настоящем варианте осуществления изобретения, как описано выше, значение счетчика предыстории работы бортовых компонентов во время подтверждения предложения вероятных операций задается в качестве функции вознаграждения при обучении с подкреплением. Следовательно, если переключатель 142A на руле, показанный на фиг. 12, упоминается в качестве примера, передача инициирующего сигнала из модуля 115 инициирования обновления обучения в модуль 111 обучения с подкреплением активируется, когда первая функциональная кнопка BA1 нажимается с возможностью подтверждать предложение вероятных операций.

[0060] Затем после приема инициирующего сигнала из модуля 115 инициирования обновления обучения, модуль 111 обучения с подкреплением узнает то, какое из состояний, составляющих пространство состояний в каждой из таблиц T1 и T1α пространства состояний, является релевантным для текущего состояния, на основе различных данных транспортного средства, которые получаются через бортовую сеть NW в этот момент времени. Затем модуль 111 обучения с подкреплением кумулятивно прибавляет значение счетчика предыстории работы, соответствующей релевантному состоянию, в предыстории RA работы бортовых компонентов, которая сохраняется в модуле 120 хранения.

[0061] Кроме того, после обновления предыстории RA работы бортовых компонентов, модуль 111 обучения с подкреплением заново вычисляет функцию-значение Q*(st, at) оптимального действия и матрицу P(st, at) вероятностей перехода на основе функции-значения Q*(st, at) оптимального действия, при одновременном использовании функции вознаграждения после обновления, которая совпадает с обновлением предыстории RA работы. Затем модуль 113 формирования предлагаемой информации формирует предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, на основе матрицы P(st, at) вероятностей перехода, заново вычисленной посредством модуля 111 обучения с подкреплением.

[0062] Далее описывается конкретная процедура обработки в процессе формирования предложений вероятных операций бортовых компонентов, которая выполняется посредством агентского ECU 100 согласно настоящему варианту осуществления изобретения после считывания программы предоставления информации, сохраненной в модуле 120 хранения. В данном документе следует отметить, что агентский ECU 100 начинает процесс формирования предложений вероятных операций для бортовых компонентов, показанных на фиг. 13, при условии, что переключатель зажигания транспортного средства включается.

[0063] Как показано на фиг. 13, в этом процессе формирования предложений вероятных операций для бортовых компонентов, агентский ECU 100 сначала определяет то, обновлена или нет предыстория RA работы, которая сохраняется в модуле 120 хранения, а именно, определяет то, передан или нет инициирующий сигнал из модуля 115 инициирования обновления обучения в модуль 111 обучения с подкреплением (этап S10).

[0064] Затем если предыстория RA работы обновляется ("Да" на этапе S10), функция вознаграждения также обновляется, так что агентский ECU 100 вычисляет функцию-значение Q*(st, at) оптимального действия через модуль 111 обучения с подкреплением при одновременном использовании функции вознаграждения после обновления (этап S11).

[0065] Кроме того, агентский ECU 100 вычисляет матрицу P(st, at) вероятностей перехода из каждого из состояний, составляющих пространство состояний, в каждое из действий, составляющих пространство действий, через модуль 111 обучения с подкреплением, на основе такой вычисленной функции-значения Q*(st, at) оптимального действия (этап S12).

[0066] Кроме того, агентский ECU 100 вычисляет энтропию H(s) информации для каждого из состояний, составляющих пространство состояний, через модуль 112 вычисления степени дисперсии, на основе такой вычисленной матрицы P(st, at) вероятностей перехода (этап S13). Кроме того, агентский ECU 100 вычисляет среднюю энтропию H(Ω), которая получается посредством суммирования энтропий H(s) информации для соответствующих состояний через модуль 112 вычисления степени дисперсии (этап S14).

[0067] Затем если такая вычисленная средняя энтропия H(Ω) меньше случайного числа δ, заданного в качестве случайного числа ("Да" на этапе S15), агентский ECU 100 формирует окончательное предложение вероятных операций в отношении того, чтобы фиксировать, в качестве цели автоматического задания, действие a, которое максимизирует функцию-значение Q*(st, at) оптимального действия, вычисленную на вышеприведенном этапе S11, и выводит действие a из модуля 113 формирования предлагаемой информации в модуль 140 звукового вывода или модуль 141 вывода изображений (этап S16).

[0068] С другой стороны, если средняя энтропия H(Ω), вычисленная на вышеприведенном этапе S14, равна или выше случайного числа δ ("Нет" на этапе S15), агентский ECU 100 формирует предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы случайно выводить действие в качестве цели автоматического задания, с такой тенденцией, чтобы повышать частоту выбора действия по мере того, как повышается вероятность выполнения этого действия в текущем состоянии st, на основе матрицы P(st, at) вероятностей перехода, вычисленной на вышеприведенном этапе S12 (этап S17).

[0069] Затем, когда существует отклик, от водителя, на предложение вероятных операций на вышеприведенном этапе S16 или вышеприведенном этапе S17, агентский ECU 100 получает информацию относительно отклика через модуль 142 функционального ввода (этап S18). Затем агентский ECU 100 определяет то, подтверждает или нет такой полученный отклик от водителя предложение вероятных операций (этап S19). Это определение выполняется в зависимости, например, от того, нажата или нет кнопка принятия решений (первая функциональная кнопка BA1 в примере, показанном на фиг. 12) в случае функционального ввода через переключатель на руле, или того, введено или нет слово, означающее утвердительный ответ (например, "Да" и т.п.), в случае звукового ввода через микрофон.

[0070] Затем если отклик от водителя подтверждает предложение вероятных операций ("Да" на этапе S19), агентский ECU 100 выполняет действие, выводимое в качестве цели автоматического задания на вышеприведенном этапе S16 или этапе S17 (этап S20). Кроме того, когда действие, выводимое в качестве цели автоматического задания, выполняется, агентский ECU 100 передает инициирующий сигнал из модуля 115 инициирования обновления обучения в модуль 111 обучения с подкреплением, обновляет предысторию RA работы бортовых компонентов через модуль 111 обучения с подкреплением (этап S21) и переводит процесс на этап S22.

[0071] С другой стороны, если отклик от водителя не подтверждает предложение вероятных операций ("Нет" на этапе S19), агентский ECU 100 переводит процесс на этап S22 без прохождения через содержание обработки вышеприведенного этапа S20 и этапа S21.

[0072] Затем в то время когда переключатель зажигания транспортного средства включен ("Нет" на этапе S22), агентский ECU 100 возвращает процесс на этап S10 и повторяет содержание обработки этапов S10-S22 в предварительно определенном цикле. В это время, если предыстория RA работы бортовых компонентов обновлена на вышеприведенном этапе S21, агентский ECU 100 заново вычисляет функцию-значение Q*(st, at) оптимального действия и матрицу P(st, at) вероятностей перехода на основе функции-значения Q*(st, at) оптимального действия, при одновременном использовании функции вознаграждения после обновления, которая совпадает с обновлением предыстории RA работы (этап S11 и этап S12). Затем агентский ECU 100 формирует вышеуказанное окончательное предложение вероятных операций или вышеуказанное предложение вероятных операций на основе метода проб и ошибок в качестве предложения вероятных операций для бортовых компонентов, на основе заново вычисленной матрицы P(st, at) вероятностей перехода (этап S16 и этап S17).

[0073] Далее, каждый раз, когда модуль 142 функционального ввода управляется в качестве отклика на предложение вероятных операций в отношении того, чтобы подтверждать предложение вероятных операций, агентский ECU 100 обновляет предысторию RA работы бортовых компонентов и повторяет обучение с подкреплением посредством модуля 111 обучения с подкреплением в соответствии с обновлением. Таким образом, по мере того, как увеличивается частота отклика, от водителя, на предложение вероятных операций для бортовых компонентов, точность матрицы P(st, at) вероятностей перехода повышается таким образом, чтобы удовлетворять фактическим действиям, выполняемым водителем в качестве человека.

[0074] Далее описывается работа агентского ECU 100 согласно настоящему варианту осуществления изобретения с конкретным сосредоточением на операции при формировании предложения вероятных операций для бортовых компонентов. При формировании предложения вероятных операций для бортовых компонентов, трудность при прогнозировании заранее действия, которое может осуществляться водителем в соответствии с состоянием транспортного средства в каждом отдельном случае, обычно отличается в зависимости от типа предложения вероятных операций в качестве цели. Например, воспроизведение звука во время движения транспортного средства, например, включение радиостанции, воспроизведение песни и т.п., в общем, подвержено настроению водителя в это время и т.п., а также состоянию транспортного средства, и, кроме того, предусмотрено множество вариантов. Следовательно, считается сложным прогнозировать заранее действие, которое может осуществляться водителем. С другой стороны, например, задание пункта назначения и т.п., в общем, упрощает ограничение числа вариантов из состояния транспортного средства в каждом отдельном случае, по сравнению с воспроизведением звука, и считается простым прогнозировать заранее действие, которое может осуществляться водителем.

[0075] Таким образом, в настоящем варианте осуществления изобретения, агентский ECU 100 записывает, в качестве журнала, предысторию RA работы бортовых компонентов в качестве отклика на предложение вероятных операций, отдельно для типа каждого предложения вероятных операций и выполняет обучение с подкреплением, в котором записанная предыстория RA работы задается в качестве функции вознаграждения. Таким образом, агентский ECU 100 вычисляет матрицу P(st, at) вероятностей перехода из каждого из состояний, составляющих пространство состояний, в каждое из действий, составляющих пространство действий, так чтобы удовлетворять фактическому действию, выполняемому водителем в качестве человека.

[0076] В этом случае, как описано выше, в матрице P(st, at) вероятностей перехода, которая вычисляется на основе предыстории RA работы бортовых компонентов, соответствующих воспроизведению звука, вероятность осуществления каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, с относительно большой вероятностью должна быть рассеянной. С другой стороны, также в этом случае, как описано выше, в матрице P(st, at) вероятностей перехода, которая вычисляется на основе предыстории RA работы бортовых компонентов, соответствующих заданию пункта назначения, вероятность осуществления каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, с относительно небольшой вероятностью должна быть рассеянной.

[0077] Таким образом, в настоящем варианте осуществления изобретения, агентский ECU 100 оценивает степень дисперсии этого пространства состояний, на основе значения средней энтропии H(Ω), которое получается посредством суммирования значений энтропии H(s) информации для соответствующих состояний, составляющих пространство состояний.

[0078] Затем когда средняя энтропия H(Ω) меньше случайного числа δ, агентский ECU 100 формирует окончательное предложение вероятных операций в отношении того, чтобы фиксировать самое ценное действие в текущем состоянии в качестве цели предложения вероятных операций и выводить это действие. В этом случае, агентский ECU 100 повышает частоту формирования окончательного предложения вероятных операций по мере того, как снижается значение средней энтропии H(Ω).

[0079] Фиг. 14 показывает пример содержания диалога, который ведется между агентским ECU 100 и водителем таким образом, что он включает в себя окончательное предложение вероятных операций. В примере, показанном на чертеже, агентский ECU 100 подтверждает то, представляет собой или нет пункт назначения в качестве цели автоматического задания "собственный дом", в качестве окончательного предложения вероятных операций. Затем когда звуковая команда, указывающая подтверждение окончательного предложения вероятных операций ("Да" в примере, показанном на чертеже), вводится от водителя, агентский ECU 100 автоматически задает "собственный дом" в качестве пункта назначения. Как описано выше, агентский ECU 100 формирует предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, без беспокойства водителя в отношении выбора действия, в ситуации, в которой нетрудно указывать то, какое из действий, составляющих пространство действий, должно осуществляться водителем в текущем состоянии, как в случае, например, задания пункта назначения.

[0080] С другой стороны, когда средняя энтропия H(Ω) равна или выше случайного числа δ, агентский ECU 100 формирует предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выводить, в качестве цели предложения вероятных операций, действие, случайно выбранное с такой тенденцией, чтобы повышать частоту выбора действия по мере того, как повышается плотность распределения вероятностей для вероятности перехода действия из текущего состояния. В этом случае, агентский ECU 100 повышает частоту формирования предложения вероятных операций на основе метода проб и ошибок по мере того, как увеличивается значение средней энтропии H(Ω).

[0081] Фиг. 15 показывает пример содержания диалога, который ведется между агентским ECU 100 и водителем таким образом, что он включает в себя предложение вероятных операций на основе метода проб и ошибок. В примере, показанном на чертеже, агентский ECU 100 сначала запрашивает водителя подтверждать то, следует или нет начинать предложение вероятных операций на основе метода проб и ошибок. Затем когда звуковая команда, указывающая подтверждение предложения вероятных операций на основе метода проб и ошибок ("Да" в примере, показанном на чертеже), вводится от водителя, агентский ECU 100 предлагает водителю выбирать "FMA" в качестве действия, случайно выбранного из действий, плотность распределения вероятностей для вероятности перехода из текущего состояния которых является относительно высокой. Затем когда звуковая команда, указывающая подтверждение предлагаемого звука, вводится в агентский ECU 100 от водителя, агентский ECU 100 автоматически задает "FMA" в качестве звука. Кроме того, когда звуковая команда, указывающая отклонение предлагаемого звука ("Нет" в примере, показанном на чертеже), вводится в агентский ECU 100 после воспроизведения звука, агентский ECU 100 предлагает водителю выбирать "песню n на CD" в качестве другого действия, случайно выбранного с такой тенденцией, чтобы повышать частоту выбора действия по мере того, как повышается плотность распределения вероятностей для вышеуказанной вероятности перехода действия. Затем до тех пор, пока звуковая команда, указывающая подтверждение предлагаемого звука, не будет введена в агентский ECU 100 от водителя, агентский ECU 100 последовательно предлагает другое случайно выбранное действие водителю с такой тенденцией, чтобы повышать частоту выбора действия по мере того, как повышается плотность распределения вероятностей для вероятности перехода. Затем когда предложение в отношении того, чтобы выбирать "песню 2 на CD", подтверждается, агентский ECU 100 автоматически задает "песню 2 на CD" в качестве звука. Таким образом, в ситуации, в которой затруднительно указывать то, какое из действий, составляющих пространство действий, должно осуществляться водителем в текущем состоянии, как в случае, например, задания звука, агентский ECU 100 более адекватно формирует предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, посредством выбора целевого действия из множества возможных вариантов и вывода этого целевого действия.

[0082] Как описано выше, согласно настоящему варианту осуществления изобретения, могут обеспечиваться следующие преимущества.

(1) Когда средняя энтропия H(Ω), полученная из суммированного значения энтропий H(s) информации для соответствующих состояний в матрице P(st, at) вероятностей перехода, вычисленной через обучение с подкреплением, меньше случайного числа δ, агентский ECU 100 формирует окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить это целевое действие. Таким образом, предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, формируется без беспокойства водителя в отношении выбора действия. С другой стороны, когда средняя энтропия H(Ω), полученная из суммированного значения энтропий H(s) информации для соответствующих состояний в матрице P(st, at) вероятностей перехода, вычисленной через обучение с подкреплением, равна или выше случайного числа δ, агентский ECU 100 формирует предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить это целевое действие. Таким образом, предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, более адекватно формируется. Таким образом, только один содержание операции бортовых компонентов выводится за один раз в качестве цели предложения вероятных операций независимо от того, является средняя энтропия H(Ω) большой или небольшой. Следовательно, водитель должен только выражать свое желание, т.е. то, следует или нет соглашаться с содержанием операции бортовых компонентов, которая предлагается в каждом отдельном случае. Следовательно, отклики на различные типы предложений вероятных операций для бортовых компонентов, степени дисперсии средней энтропии H(Ω) которых отличаются друг от друга, такие как задание пункта назначения и воспроизведение звука, могут согласованно формироваться при одновременном использовании модуля 142 функционального ввода в качестве идентичного простого пользовательского интерфейса. Таким образом, предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, может формироваться при недопущении отвлечения водителя.

[0083] (2) Когда значение средней энтропии H(Ω) меньше случайного числа δ, агентский ECU 100 формирует окончательное предложение вероятных операций с выбором в качестве цели действия, которое максимизирует функцию-значение Q*(st, at) оптимального действия в текущем состоянии, а именно, действия, которое является самым ценным в текущем состоянии и которое предположительно с наибольшей вероятностью должно осуществляться водителем. Таким образом, предложение вероятных операций, которое совпадает с намерением водителя, может быть реализовано с более высокой надежностью.

[0084] (3) Когда значение средней энтропии H(Ω) равно или выше случайного числа δ, агентский ECU 100 формирует предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту выбора, в качестве цели, действия, плотность распределения вероятностей для распределения вероятностей в текущем состоянии которое является высокой, а именно, действия, которое с большой вероятностью должно осуществляться водителем в текущем состоянии. Таким образом, даже в условиях, в которых затруднительно указывать операцию с целевыми бортовыми компонентами заранее, предложение вероятных операций, которое совпадает с намерением водителя, может быть реализовано с более высокой надежностью.

[0085] (4) Агентский ECU 100 выбирает окончательное предложение вероятных операций или предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту формирования предложения вероятных операций на основе метода проб и ошибок по мере того, как увеличивается ε-значение, при одновременном использовании ε-жадного метода, в котором значение средней энтропии H(Ω) задается в качестве ε-значения. Следовательно, в агентском ECU 100, частота выбора предложения вероятных операций на основе метода проб и ошибок повышается в качестве ε-значения по мере того, как увеличивается значение средней энтропии, а именно, по мере того, как увеличивается степень дисперсии пространства состояний. Таким образом, также, в условиях, в которых затруднительно указывать действие водителя в отношении предоставления информации в качестве цели, предложение вероятных операций, которое совпадает с намерением водителя, может быть реализовано с более высокой надежностью.

[0086] (5) Агентский ECU 100 задает функцию вознаграждения посредством применения частоты действия, которое выполняется после выбора из действий, составляющих пространство действий, через отклик на предложение вероятных операций, в качестве индекса степени целесообразности предложения вероятных операций для бортовых компонентов в отношении намерения водителя и также обновляет функцию вознаграждения каждый раз, когда предыстория отклика (предыстория RA работы бортовых компонентов) обновляется. Таким образом, матрица P(st, at) вероятностей перехода, в которой каждое из действий, составляющих пространство действий, выполняется в каждом из состояний, составляющих пространство состояний, так что чтобы совпадать с намерением водителя, может вычисляться, и точность матрицы P(st, at) вероятностей перехода может повышаться таким образом, чтобы удовлетворять фактическому отклику водителем в качестве человека по мере того, как увеличивается частота отклика водителя.

[0087] (6) Агентский ECU 100 задает каждое из состояний, составляющих пространство состояний, с учетом множества элементов, которые оказывают влияние на предложение вероятных операций для бортовых компонентов, таких как ситуации функционирования DA и DAα бортовых компонентов, характеристики DB и DBα пассажира(ов) транспортного средства, ситуации DC и DCα при движении транспортного средства и т.п. Таким образом, предложение вероятных операций, которое совпадает с намерением водителя, может быть реализовано таким образом, чтобы дополнительно удовлетворять фактической обстановке. В этой связи, число состояний, составляющих пространство состояний, также оценивается как огромное, в результате учета различных элементов, как описано выше. В этом отношении, согласно вышеуказанному варианту осуществления изобретения, предложение вероятных операций, которое совпадает с намерением водителя, может быть реализовано, даже когда огромное количество данных учителя не подготовлено заранее, как в случае использования, например, обучения с помощью учителя, посредством использования способа обучения с подкреплением, в котором предпринимается попытка повышать точность по мере того, как накапливается предыстория RA работы.

[0088] Второй вариант осуществления

Далее описывается устройство предоставления информации согласно второму варианту осуществления изобретения со ссылкой на чертежи. В этой связи, второй вариант осуществления изобретения отличается от первого варианта осуществления изобретения тем, что окончательное предложение вероятных операций или предложение вероятных операций на основе метода проб и ошибок выбирается на основе значения энтропии информации, соответствующего текущему состоянию, вместо получения значения средней энтропии в качестве суммы значений энтропий информации для соответствующих состояний. Соответственно, в нижеприведенном описании, описываются главным образом конфигурационные подробности, которые отличаются от конфигурационных подробностей первого варианта осуществления изобретения, и избыточное описание конфигурационных подробностей, которые являются идентичными или являются эквивалентными конфигурационным подробностям первого варианта осуществления изобретения, опускается.

[0089] Фиг. 16 показывает пример матрицы P(st, at) вероятностей перехода, которая используется для того, чтобы выбирать окончательное предложение вероятных операций или предложение вероятных операций на основе метода проб и ошибок в настоящем варианте осуществления изобретения. В примере, показанном на чертеже, например, вероятность осуществления действия a1 в состоянии si составляет 0,03. Справедливо и то, что вероятность осуществления действия a2 в состоянии si составляет 0,04. Справедливо и то, что вероятность осуществления действия a100 в состоянии si составляет 0,02. Кроме того, агентский ECU 100 вычисляет значение энтропии H(s) информации при одновременном использовании выражений, показанных на фиг. 8, когда эти вероятности обозначаются посредством p. В этом случае, эти вероятности являются гомогенно рассеянными, так что значение энтропии H(s) информации является относительно большим.

[0090] Кроме того, справедливо и то, что в примере, показанном на чертеже, например, вероятность осуществления действия a1 в состоянии sj составляет 0,6. Справедливо и то, что вероятность осуществления действия a2 в состоянии sj составляет 0,02. Справедливо и то, что вероятность осуществления действия a100 составляет 0,04. Кроме того, агентский ECU 100 вычисляет значение энтропии H(s) информации при одновременном использовании выражений, показанных на фиг. 8, когда эти вероятности обозначаются посредством p. В этом случае, эти вероятности локально ("действие a1") смещены, так что значение энтропии H(s) информации является относительно небольшим.

[0091] Затем агентский ECU 100 формирует информацию относительно предложения вероятных операций для бортовых компонентов, при одновременном использовании ε-жадного метода, в котором значение энтропии H(s) информации, соответствующее текущему состоянию, является ε-значением, в общем, в соответствии с алгоритмом, используемым в вышеуказанном первом варианте осуществления изобретения. Таким образом, когда значение энтропии H(s) информации, соответствующее текущему состоянию, является относительно большим, как в случае, когда текущее состояние является состоянием si, показанным на фиг. 16, агентский ECU 100 повышает частоту формирования предложения вероятных операций на основе метода проб и ошибок через применение вышеуказанного выражения (6). С другой стороны, когда значение энтропии H(s) информации, соответствующее текущему состоянию, является относительно небольшим, как в случае, когда текущее состояние является состоянием sj, показанным на фиг. 16, агентский ECU 100 повышает частоту формирования окончательного предложения вероятных операций через применение вышеуказанного выражения (5). Таким образом, даже в случае, если значение средней энтропии H(Ω) является относительно небольшим, когда пространство состояний рассматривается в целом, как в случае, например, задания пункта назначения, агентский ECU 100 определяет то, что существует ситуация, когда затруднительно указывать то, какое из действий, составляющих пространство действий, должно осуществляться водителем исключительно в текущем состоянии, и формирует предложение вероятных операций на основе метода проб и ошибок, если значение энтропии H(s) информации, соответствующее текущему состоянию, равно или выше случайного числа δ. Кроме того, наоборот, даже в случае, если значение средней энтропии H(Ω) является относительно большим, когда пространство состояний рассматривается в целом, как в случае, например, задания звука, агентский ECU 100 определяет то, что существует ситуация, когда нетрудно указывать то, какое из действий, составляющих пространство действий, должно осуществляться водителем исключительно в текущем состоянии, и формирует окончательное предложение вероятных операций, если значение энтропии H(s) информации, соответствующее текущему состоянию, меньше случайного числа δ. Как описано выше, агентский ECU 100 формирует предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя таким образом, чтобы дополнительно удовлетворять фактической обстановке, с отдельным и конкретным учетом простоты, с которой действие водителя указывается в текущем состоянии.

[0092] Как описано выше, согласно вышеуказанному второму варианту осуществления изобретения, следующие преимущества могут обеспечиваться в дополнение к вышеуказанному преимуществу (1) первого варианта осуществления изобретения.

(1A) Когда энтропия H(s) информации, соответствующая текущему состоянию, равна или выше случайного числа δ в матрице P(st, at) вероятностей перехода, вычисленной через обучение с подкреплением, агентский ECU 100 формирует предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие из множества возможных вариантов и выводить это целевое действие, в качестве предложения вероятных операций для бортовых компонентов. Таким образом, предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, более адекватно формируется. С другой стороны, когда энтропия H(s) информации, соответствующая текущему состоянию, меньше случайного числа δ в матрице P(st, at) вероятностей перехода, вычисленной через обучение с подкреплением, агентский ECU 100 формирует окончательное предложение вероятных операций в отношении того, чтобы фиксировать и выводить целевое действие, в качестве предложения вероятных операций для бортовых компонентов. Таким образом, предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, формируется без беспокойства водителя в отношении выбора действия. Таким образом, только один содержание операции бортовых компонентов выводится за один раз в качестве цели предложения вероятных операций, независимо от того, является степень дисперсии энтропии H(s) информации для каждого из состояний большой или небольшой. Следовательно, водитель должен только выражать свое желание, а именно, то, следует или нет соглашаться с содержанием операции бортовых компонентов, которая предлагается в каждом отдельном случае. Следовательно, отклики на различные типы предложений вероятных операций для бортовых компонентов, степени дисперсии энтропии H(s) информации которых для каждого из состояний отличаются друг от друга, такие как задание пункта назначения и воспроизведение звука, могут формироваться при одновременном использовании модуля 142 функционального ввода в качестве идентичного простого пользовательского интерфейса. Таким образом, предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя, может формироваться при недопущении отвлечения водителя. Кроме того, агентский ECU 100 выбирает предложение вероятных операций на основе метода проб и ошибок или окончательное предложение вероятных операций на основе значения энтропии H(s) информации, соответствующего текущему состоянию, независимо от значения средней энтропии H(Ω), которое задает степень дисперсии пространства состояний в то время, когда пространство состояний рассматривается в целом. Таким образом, агентский ECU 100 может формировать предложение вероятных операций для бортовых компонентов, которое совпадает с намерением водителя таким образом, чтобы дополнительно удовлетворять фактической обстановке, с отдельным и конкретным учетом простоты, с которой действие водителя указывается в текущем состоянии.

[0093] Другие варианты осуществления

В этой связи, каждый из вышеуказанных вариантов осуществления изобретения также может выполняться в следующих режимах. В вышеуказанном первом варианте осуществления изобретения, средняя энтропия H(Ω), которая задает степень дисперсии пространства состояний, вычисляется посредством суммирования энтропий H(s) информации в отношении всех состояний, которые задают пространство состояний. Вместо этого, средняя энтропия H(Ω) может вычисляться посредством суммирования энтропий H(s) информации в отношении некоторых состояний, которые задают пространство состояний.

[0094] В вышеуказанном первом варианте осуществления изобретения, случайное число δ используется в качестве порогового значения, которое должно сравниваться со средней энтропией H(Ω). Таким образом, становится возможным более широкий спектр выделений. Тем не менее, вместо этого, с целью снижения нагрузки по обработке, фиксированное значение может использоваться в качестве порогового значения, которое должно сравниваться со средней энтропией H(Ω). В этом случае, окончательное предложение вероятных операций может формироваться через применение вышеуказанного выражения (5), когда средняя энтропия H(Ω) меньше фиксированного значения, тогда как предложение вероятных операций на основе метода проб и ошибок может формироваться через применение вышеуказанного выражения (6), когда средняя энтропия H(Ω) равна или выше фиксированного значения.

[0095] Справедливо и то, что в вышеуказанном втором варианте осуществления изобретения, случайное число δ используется в качестве порогового значения, которое должно сравниваться с энтропией H(s) информации, соответствующей текущему состоянию. Вместо этого, фиксированное значение может использоваться в качестве порогового значения, которое должно сравниваться с энтропией H(s) информации, соответствующей текущему состоянию. В этом случае, окончательное предложение вероятных операций может формироваться через применение вышеуказанного выражения (5), когда энтропия информации H(s) меньше фиксированного значения, тогда как предложение вероятных операций на основе метода проб и ошибок может формироваться через применение вышеуказанного выражения (6), когда энтропия H(s) информации, соответствующая текущему состоянию, равна или выше фиксированного значения.

[0096] В вышеуказанном первом варианте осуществления изобретения, степень дисперсии пространства состояний оценивается на основе средней энтропии H(Ω), полученной посредством суммирования энтропий H(s) информации, соответствующих соответствующим состояниям, составляющим пространство состояний. Вместо этого, степень дисперсии пространства состояний может оцениваться на основе значения, полученного посредством суммирования непостоянств или среднеквадратических отклонений распределений вероятностей для соответствующих состояний, составляющих пространство состояний.

[0097] Справедливо и то, что в вышеуказанном втором варианте осуществления изобретения, степень дисперсии распределения вероятностей в текущем состоянии оценивается на основе энтропии H(s) информации, соответствующей текущему состоянию. Тем не менее, вместо этого, степень дисперсии распределения вероятностей в текущем состоянии может оцениваться на основе непостоянства или среднеквадратического отклонения распределения вероятностей в текущем состоянии.

[0098] В каждом из вышеуказанных вариантов осуществления изобретения, атрибуты данных транспортного средства, которые задают состояния, включают в себя ситуации функционирования DA и DAα бортовых компонентов, характеристики DB и DBα пассажира(ов) транспортного средства и ситуации DC и DCα при движении транспортного средства. Изобретение не ограничено этим. Другие элементы могут приспосабливаться в качестве атрибутов данных транспортного средства, которые задают состояния, при условии, что элементы участвуют в способе, которым водитель управляет бортовыми компонентами.

[0099] В каждом из вышеуказанных вариантов осуществления изобретения, в качестве окончательного предложения вероятных операций, действие, которое максимизирует функцию-значение Q*(st, at) оптимального действия в текущем состоянии из числа соответствующих действий, составляющих пространство действий, а именно, самое ценное действие в текущем состоянии, выводится в качестве цели предложения вероятных операций. Вместо этого, например, действие, которое максимизирует вероятность перехода в текущем состоянии, может выводиться в качестве цели предложения вероятных операций. Коротко говоря, достаточно формировать окончательное предложение вероятных операций с выбором в качестве цели действия, которое предположительно с наибольшей вероятностью должно осуществляться водителем.

[0100] В каждом из вышеуказанных вариантов осуществления изобретения, в качестве предложения вероятных операций на основе метода проб и ошибок, действие, которое удовлетворяет условию F(s)=τ, выводится в качестве цели предложения вероятных операций. Вместо этого, когда кумулятивная функция F(s) распределения получается посредством перестановки вероятностей осуществления соответствующих действий, составляющих пространство действий, в определенном состоянии s в порядке возрастания и суммирования этих вероятностей, действие, которое удовлетворяет условию F(s)≥τ, может выводиться в качестве цели предложения вероятных операций. Кроме того, когда кумулятивная функция F(s) распределения получается посредством перестановки вероятностей осуществления соответствующих действий, составляющих пространство действий, в определенном состоянии s в порядке убывания и суммирования этих вероятностей, действие, которое удовлетворяет условию F(s)≤τ, может выводиться в качестве цели предложения вероятных операций. Коротко говоря, достаточно формировать предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту выбора действия по мере того, как повышается плотность распределения вероятностей для распределения вероятностей действия в текущем состоянии.

[0101] В каждом из вышеуказанных вариантов осуществления изобретения, число нажатий первой функциональной кнопки BA1 в переключателе 142A на руле, показанном на фиг. 12, в качестве отклика на предложение вероятных операций задается в качестве функции вознаграждения при обучении с подкреплением. Вместо этого, значение, полученное посредством вычитания числа нажатий второй функциональной кнопки BA2 из числа нажатий первой функциональной кнопки BA1 в переключателе на руле, показанном на фиг. 12, может задаваться в качестве функции вознаграждения при обучении с подкреплением. Кроме того, значение, полученное посредством дополнительного вычитания числа нажатий третьей функциональной кнопки BA3 или числа нажатий четвертой функциональной кнопки BA4 из числа нажатий первой функциональной кнопки BA1, также может задаваться в качестве функции вознаграждения при обучении с подкреплением. Кроме того, значение, полученное посредством записи, в качестве журнала, числа раз отсутствия операции водителя в ответ на предложение вероятных операций для бортовых компонентов и вычитания этого числа, записываемого в качестве журнала, из числа нажатий первой функциональной кнопки BA1, также может задаваться в качестве функции вознаграждения при обучении с подкреплением. Кроме того, число возникновений комфортных и некомфортных ощущений водителем для предложения вероятных операций для бортовых компонентов может измеряться на основе биологического сигнала и т.п. водителя, и число возникновений комфортного ощущения водителем может задаваться в качестве функции вознаграждения при обучении с подкреплением. Кроме того, значение, полученное посредством вычитания числа возникновений некомфортного ощущения водителем из числа возникновений комфортного ощущения водителем, также может задаваться в качестве функции вознаграждения при обучении с подкреплением. Коротко говоря, любой индекс, представляющий степень целесообразности предложения вероятных операций для бортовых компонентов относительно намерения водителя, может задаваться в качестве функции вознаграждения при обучении с подкреплением.

[0102] В каждом из вышеуказанных вариантов осуществления изобретения, в качестве примера описана конфигурация, в которой переключатель на руле имеет третью функциональную кнопку BA3 и четвертую функциональную кнопку BA4, которые нажимаются при управлении бортовыми компонентами независимо от предложения вероятных операций из агентского ECU 100, а также первую функциональную кнопку BA1 и вторую функциональную кнопку BA2, которые нажимаются при отклике на предложение вероятных операций из агентского ECU 100. Тем не менее, следует отметить, что может приспосабливаться конфигурация, в которой переключатель 142B на руле, который имеет только первую функциональную кнопку BA1 и вторую функциональную кнопку BA2, которые нажимаются при отклике на предложение вероятных операций из агентского ECU 100, используется в качестве другого примера переключателя на руле, как показано на фиг. 17. Кроме того, может приспосабливаться конфигурация, в которой переключатель 142C на руле, имеющий третью функциональную кнопку BA3α, которая нажимается при активации консьерж-услуг, вместо третьей функциональной кнопки BA3, которая нажимается при управлении бортовыми компонентами через ввод вручную водителем, показанной на фиг. 12, используется в качестве другого примера переключателя на руле, как показано на фиг. 18. Кроме того, в конфигурации этого переключателя 142B или 142C на руле также, отклик, от водителя, на предложение вероятных операций может обнаруживаться через операцию с переключателем 142B или 142C на руле и использоваться в качестве функции вознаграждения при обучении с подкреплением.

[0103] В каждом из вышеуказанных вариантов осуществления изобретения, Q-обучение выполняется в качестве способа обучения с подкреплением. Вместо этого, другие способы, например, SARSA-способ, способ "актер-критик" и т.п. также могут использоваться в качестве способа обучения с подкреплением.

Похожие патенты RU2657179C1

название год авторы номер документа
УСТРОЙСТВО ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ ДЛЯ ИСПОЛЬЗОВАНИЯ В ТРАНСПОРТНОМ СРЕДСТВЕ 2012
  • Кондох Такаюки
RU2549578C1
СПОСОБ ОБУЧЕНИЯ И ДИАГНОСТИКИ ОБУЧАЕМОСТИ 2005
  • Дьячук Павел Петрович
  • Лариков Евгений Викторович
RU2294144C1
УСТРОЙСТВО ОБРАБОТКИ ИНФОРМАЦИИ 2021
  • Судзуки, Икума
  • Канда, Ватару
  • Итабаси, Кайдзи
  • Ямада, Йосихиса
  • Мияке, Кадзуки
  • Кондох, Тамоцу
RU2765067C2
УСТРОЙСТВО ОБРАБОТКИ ИНФОРМАЦИИ 2019
  • Судзуки, Икума
  • Канда, Ватару
  • Итабаси, Кайдзи
  • Ямада, Йосихиса
  • Мияке, Кадзуки
  • Кондох, Тамоцу
RU2742459C2
СИСТЕМА ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ 2014
  • Ясухара Синдзи
  • Такано Терухиса
  • Коудзаи Акихико
RU2647688C2
УСТРОЙСТВО УПРАВЛЕНИЯ СОСТОЯНИЕМ ЗАРЯДА АККУМУЛЯТОРНОЙ БАТАРЕИ ДЛЯ ТРАНСПОРТНОГО СРЕДСТВА С ГИБРИДНЫМ ПРИВОДОМ 2018
  • Такахаси Томоя
  • Табата Мицухиро
RU2699718C1
РЕГИСТРАЦИЯ МЕДИЦИНСКОГО АТЛАСА 2017
  • Бреш Эрик
  • Менковски Владо
RU2745400C2
НЕПРЕРЫВНОЕ УПРАВЛЕНИЕ С ПОМОЩЬЮ ГЛУБОКОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ 2016
  • Лилликрап, Тимоти Пол
  • Хант, Джонатан Джеймс
  • Притцель, Александер
  • Хеесс, Николас Манфред Отто
  • Эрез, Том
  • Тасса, Юваль
  • Силвер, Дэвид
  • Вирстра, Даниэль Питер
RU2686030C1
СИСТЕМА ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ 2015
  • Цудзи, Масафуми
RU2677256C1
УСТРОЙСТВО УПРАВЛЕНИЯ ДВИЖЕНИЕМ ТРАНСПОРТНОГО СРЕДСТВА 2015
  • Такае Ясухико
  • Етори Нариаки
  • Сето Йодзи
RU2693183C2

Иллюстрации к изобретению RU 2 657 179 C1

Реферат патента 2018 года УСТРОЙСТВО ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ И НЕКРАТКОВРЕМЕННЫЙ КОМПЬЮТЕРНО-ЧИТАЕМЫЙ НОСИТЕЛЬ, СОХРАНЯЮЩИЙ ПРОГРАММУ ПРЕДОСТАВЛЕНИЯ ИНФОРМАЦИИ

Группа изобретений относится к средствам предоставления информации для водителей. Технический результат – повышение точности определения информации, которую необходимо предоставить водителю. Для этого предложено устройство предоставления информации, которое включает в себя модуль управления (ECU), который задает функцию вознаграждения с помощью данных предыстории по отклику от водителя на предложение вероятных операций для бортового компонента и вычисляет распределение вероятностей выполнения каждого из действий в каждом из состояний, через обучение с подкреплением на основе функции вознаграждения. ECU вычисляет степень дисперсии распределения вероятностей и также формирует предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие и выводить его, когда степень дисперсии распределения вероятностей равна или выше порогового значения, и формирует окончательное предложение вероятных операций в отношении того, чтобы фиксировать и выводить целевое действие, когда значение степени дисперсии распределения вероятностей меньше порогового значения. 4 н. и 7 з.п. ф-лы, 20 ил.

Формула изобретения RU 2 657 179 C1

1. Устройство предоставления информации, содержащее:

- агентский электронный модуль управления, включающий в себя:

- модуль составления пространства состояний, который выполнен с возможностью задавать состояние транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составлять пространство состояний в качестве набора из множества состояний,

- модуль составления пространства действий, который выполнен с возможностью задавать в качестве действия данные, указывающие содержание операции бортового компонента, которая выполняется через отклик от водителя на предложение вероятных операций для бортового компонента, и составлять пространство действий в качестве набора из множества действий,

- модуль обучения с подкреплением, который выполнен с возможностью накапливать предысторию отклика от водителя на предложение вероятных операций для бортового компонента, задавать функцию вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычислять распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения,

- модуль вычисления степени дисперсии, который выполнен с возможностью вычислять степень дисперсии распределения вероятностей, которое вычисляется посредством модуля обучения с подкреплением, и

- модуль предоставления информации, который выполнен с возможностью формировать окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется посредством модуля вычисления степени дисперсии, меньше порогового значения, и формировать предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется посредством модуля вычисления степени дисперсии, равна или выше порогового значения.

2. Устройство предоставления информации по п. 1, в котором:

- модуль обучения с подкреплением выполнен с возможностью задавать в качестве функции вознаграждения частоту выполнения операции бортового компонента через отклик водителя на предложение вероятных операций для бортового компонента и обновлять функцию вознаграждения в соответствии с изменением предыстории работы для операции бортового компонента, когда бортовой компонент управляется в соответствии с предложением вероятных операций для бортового компонента.

3. Устройство предоставления информации по п. 1, в котором:

- модуль составления пространства состояний выполнен с возможностью составлять пространство состояний в качестве набора состояний в качестве группы данных, которые ассоциируют ситуацию функционирования бортового компонента, характеристики пассажира или пассажиров транспортного средства и ситуацию при движении транспортного средства между собой.

4. Устройство предоставления информации, содержащее:

- агентский электронный модуль управления, включающий в себя:

- модуль составления пространства состояний, который выполнен с возможностью задавать состояние транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составлять пространство состояний в качестве набора из множества состояний,

- модуль составления пространства действий, который выполнен с возможностью задавать в качестве действия данные, указывающие содержание операции бортового компонента, которая выполняется через отклик от водителя на предложение вероятных операций для бортового компонента, и составлять пространство действий в качестве набора из множества действий,

- модуль обучения с подкреплением, который выполнен с возможностью накапливать предысторию отклика от водителя на предложение вероятных операций для бортового компонента, задавать функцию вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычислять распределение вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения,

- модуль вычисления степени дисперсии, который выполнен с возможностью вычислять степень дисперсии пространства состояний посредством суммирования степени дисперсии распределения вероятностей, которое вычисляется посредством модуля обучения с подкреплением в отношении множества состояний, составляющих пространство состояний, и

- модуль предоставления информации, который выполнен с возможностью формировать окончательное предложение вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить целевое действие, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, меньше порогового значения, и формировать предложение вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить целевое действие, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, равна или выше порогового значения.

5. Устройство предоставления информации по п. 4, в котором:

- модуль обучения с подкреплением выполнен с возможностью приспосабливать в качестве политики преобразование из каждого из состояний, составляющих пространство состояний, в каждое из действий, составляющих пространство действий, задавать в качестве функции-значения состояния ожидаемое значение кумулятивного вознаграждения, которое получается, когда политики придерживаются в каждом из состояний, оценивать в качестве функции-значения оптимального действия ожидаемое значение кумулятивного вознаграждения, которое всегда получается, когда оптимальной политики придерживаются после того, как предварительно определенное действие выбирается из пространства действий в каждом из состояний, составляющих пространство состояний, при условии, что оптимальная политика представляет собой политику, которая максимизирует функцию-значение состояния во всех состояниях, составляющих пространство состояний, и вычислять распределение вероятностей на основе оцененной функции-значения оптимального действия, и

- модуль предоставления информации выполнен с возможностью формировать окончательное предложение вероятных операций с выбором в качестве цели действия, которое максимизирует функцию-значение оптимального действия в текущем состоянии, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, меньше порогового значения.

6. Устройство предоставления информации по п. 5, в котором:

- модуль предоставления информации выполнен с возможностью формировать предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту выбора действия в качестве цели по мере того, как повышается плотность распределения вероятностей для распределения вероятностей действия в текущем состоянии, когда степень дисперсии пространства состояний, которая вычисляется посредством модуля вычисления степени дисперсии, равна или выше порогового значения.

7. Устройство предоставления информации по п. 5 или 6, в котором:

- модуль вычисления степени дисперсии выполнен с возможностью задавать в качестве энтропии степень дисперсии распределения вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, и задавать степень дисперсии пространства состояний в качестве средней энтропии, и

- модуль предоставления информации выполнен с возможностью выбирать окончательное предложение вероятных операций или предложение вероятных операций на основе метода проб и ошибок с такой тенденцией, чтобы повышать частоту формирования предложения вероятных операций на основе метода проб и ошибок по мере того, как увеличивается ε-значение, при одновременном использовании ε-жадного метода, в котором значение средней энтропии задается в качестве ε-значения.

8. Устройство предоставления информации по п. 4, в котором:

- модуль обучения с подкреплением выполнен с возможностью задавать в качестве функции вознаграждения частоту выполнения операции бортового компонента через отклик водителя на предложение вероятных операций для бортового компонента и обновлять функцию вознаграждения в соответствии с изменением предыстории работы для операции бортового компонента, когда бортовой компонент управляется в соответствии с предложением вероятных операций для бортового компонента.

9. Устройство предоставления информации по п. 4, в котором:

- модуль составления пространства состояний выполнен с возможностью составлять пространство состояний в качестве набора состояний в качестве группы данных, которые ассоциируют ситуацию функционирования бортового компонента, характеристики пассажира или пассажиров транспортного средства и ситуацию при движении транспортного средства между собой.

10. Некратковременный компьютерно-читаемый носитель, который сохраняет программу предоставления информации, содержащий:

- программу предоставления информации, которая программируется с возможностью инструктировать компьютеру реализовывать:

- функцию составления пространства состояний для задания состояния транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составления пространства состояний в качестве набора из множества состояний,

- функцию составления пространства действий для задания в качестве действия данных, указывающих содержание операции бортового компонента, которая выполняется через отклик от водителя на предложение вероятных операций для бортового компонента, и составления пространства действий в качестве набора из множества действий,

- функцию обучения с подкреплением для накопления предыстории отклика от водителя на предложение вероятных операций для бортового компонента, задания функции вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычисления распределения вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения,

- функцию вычисления степени дисперсии для вычисления степени дисперсии распределения вероятностей, которое вычисляется через функцию обучения с подкреплением, и

- функцию предоставления информации для формирования окончательного предложения вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется через функцию вычисления степени дисперсии, меньше порогового значения, и формирования предложения вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить целевое действие, когда степень дисперсии распределения вероятностей, которая вычисляется через функцию вычисления степени дисперсии, равна или выше порогового значения.

11. Некратковременный компьютерно-читаемый носитель, который сохраняет программу предоставления информации, содержащий:

- программу предоставления информации, которая программируется с возможностью инструктировать компьютеру реализовывать:

- функцию составления пространства состояний для задания состояния транспортного средства посредством ассоциирования множества типов данных транспортного средства между собой и составления пространства состояний в качестве набора из множества состояний,

- функцию составления пространства действий для задания в качестве действия данных, указывающих содержание операции бортового компонента, которая выполняется через отклик от водителя на предложение вероятных операций для бортового компонента и составления пространства действий в качестве набора из множества действий,

- функцию обучения с подкреплением для накопления предыстории отклика от водителя на предложение вероятных операций для бортового компонента, задания функции вознаграждения в качестве индекса, представляющего степень целесообразности предложения вероятных операций для бортового компонента, при одновременном использовании накопленной предыстории и вычисления распределения вероятностей выполнения каждого из действий, составляющих пространство действий, в каждом из состояний, составляющих пространство состояний, через обучение с подкреплением на основе функции вознаграждения,

- функцию вычисления степени дисперсии для вычисления степени дисперсии пространства состояний посредством суммирования степени дисперсии распределения вероятностей, которое вычисляется через функцию обучения с подкреплением в отношении множества состояний, составляющих пространство состояний, и

- функцию предоставления информации для формирования окончательного предложения вероятных операций в отношении того, чтобы фиксировать целевое действие в качестве цели предложения вероятных операций и выводить целевое действие, когда степень дисперсии пространства состояний, которая вычисляется через функцию вычисления степени дисперсии, меньше порогового значения, и формирования предложения вероятных операций на основе метода проб и ошибок в отношении того, чтобы выбирать целевое действие в качестве цели предложения вероятных операций из множества возможных вариантов и выводить целевое действие, когда степень дисперсии пространства состояний, которая вычисляется через функцию вычисления степени дисперсии, равна или выше порогового значения.

Документы, цитированные в отчете о поиске Патент 2018 года RU2657179C1

Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок 1923
  • Григорьев П.Н.
SU2008A1
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем 1924
  • Волынский С.В.
SU2012A1
US 9213522 B2, 15.12.2015
СПОСОБ КОМПЛЕКСИРОВАННОГО ПРЕДСТАВЛЕНИЯ ВИЗУАЛЬНОЙ ИНФОРМАЦИИ ДЛЯ ВОДИТЕЛЯ ТРАНСПОРТНОГО СРЕДСТВА 1998
  • Вознесенский А.Н.
  • Абидуллин Т.Б.
  • Терещенко М.В.
RU2138409C1

RU 2 657 179 C1

Авторы

Кога Ко

Даты

2018-06-08Публикация

2017-03-06Подача