Изобретение относится к интеллектуальным контроллерам, использующим принцип обучения с подкреплением, искусственные нейронные сети и может использоваться для управления сложными системами в недетерминированной среде.
Известен патент МПК G06F 15/18 2523218 «Модифицированный интеллектуальный контроллер с адаптивным критиком». Данное устройство состоит из блока расчета подкрепления, блока расчета временной разности, блока обучения критика, блока критика, решающей нейронной сети, блока выбора действия, блока отбора действия, блока действий, блока занесения действий, объекта управления. При этом первый и второй входы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входами блока расчета подкрепления, выход решающей нейронной сети соединен с первым входом блока критика, выход блока критика связан с входом блока выбора действия, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока выбора действия соединен с входом объекта управления, первый и второй выходы объекта управления также соединены с первым и вторым входами блока отбора действий, первый выход блока отбора действий соединен с первым входом блока действий, второй выход блока отбора действий соединен со вторым входом блока критика, третий выход блока отбора действий соединен с третьим входом решающей нейронной сети, четвертый выход блока отбора действий соединен со вторым входом блока выбора действия, выход блока действий соединен с третьим входом блока отбора действий, выход блока расчета подкрепления соединен также со вторым входом блока занесения действий, выход блока расчета временной разности соединен с первым входом обучения критика, первый и второй выходы блока обучения критика соединены соответственно с первым и вторым входами блока критика, третий выход блока обучения критика соединен с четвертым входом блока расчета временной разности, выход блока критика также соединен со вторым входом блока обучения критика, выход блока выбора действия также соединен с первым входом блока занесения действий, выход блока занесения действий соединен со вторым входом блока действий.
Принцип работы устройства по патенту МПК G06F 15/18 2523218 следующий - объект управления выполняет действие и на выходах выдает сигналы состояния объекта управления и внешней среды, по которым блок отбора действий запрашивает и получает от блока действий возможные действия для данной ситуации. Решающая нейронная сеть, получив новые данные, прогнозирует значение рабочего параметра на следующую временную итерацию. Блок отбора действий, получив возможные действия, синхронно с решающей нейронной сетью начинает подавать возможные действия и прогноз рабочего параметра на блок критика, который в свою очередь последовательно вычисляет возможное будущее подкрепление для каждого возможного действия. Далее возможные будущие подкрепления подаются на блок выбора действия, который по заданному алгоритму выбирает действие объекта управления на следующую временную итерацию и подает выбранное действие на объект управления. Блок расчета подкрепления, получив значения текущего состояния внешней среды и объекта управления, вычисляет значение полученного подкрепления за последнюю отработанную итерацию управления. Полученное значение подкрепления передается в блок расчета временной разности, который рассчитывает временную разность и формирует обучающую выборку для нейронной сети блока критика. Если значение полученной временной разности и если ошибка существенная, то блок расчета временной разности останавливает работу критика и переобучает его на новых данных.
Недостатками данного устройства являются невозможность переобучения решающей нейронной сети, недостаточная скорость работы за счет взаимодействия блока выбора действия, блока отбора действия, блока действий, блока занесения действий.
Наиболее близким техническим решением является патент РФ МПК G06F 15/00 №2450336 «Модифицированный интеллектуальный контроллер с адаптивным критиком». Данное устройство состоит из блока расчета подкрепления, блока расчета временной разности, блока обучения критика, блока критика, решающей нейронной сети, блока выбора действия, блока отбора действий, блока действий, блока занесения действий, объекта управления. При этом первый и второй выходы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входом блока расчета подкрепления, выход решающей нейронной сети соединен с первым входом блока критика, выход блока критика связан с входом блока выбора действия, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока выбора действия соединен с входом объекта управления, первый и второй выходы объекта управления также соединены с первым и вторым входами блока отбора действий, первый выход блока отбора действий соединен с первым входом блока действий, второй выход блока отбора действий соединен со вторым входом блока критика, третий выход блока отбора действий соединен с третьим входом решающей нейронной сети, четвертый выход блока отбора действий соединен со вторым входом блока выбора действия, выход блока действий соединен с третьим входом блока отбора действий, выход блока расчета подкрепления соединен также со вторым входом блока занесения действий, выход блока расчета временной разности соединен с первым входом блока обучения критика, первый и второй выходы блока обучения критика соединены соответственно с первым и вторым входами блока критика, третий выход блока обучения критика соединен с четвертым входом блока расчета временной разности, выход блока критика также соединен со вторым входом блока обучения критика, выход блока выбора действия также соединен с первым входом блока занесения действий, выход блока занесения действий соединен со вторым входом блока действий. Принцип работы устройства по патенту РФ МПК G06F 15/00 №2450336 «Модифицированный интеллектуальный контроллер с адаптивным критиком» следующий - объект управления выдает сигналы состояния и действия, по которым блок действий выбирает возможные действия в данной ситуации и подает их на блок критика параллельно с прогнозным значением рабочего параметра, который рассчитывает блок прогнозирования параметра. Критик, получая данные, последовательно оценивает последствия возможных действий и выдает их на блок выбора действия, который с помощью «жадного» - правила выбирает действие и подает его на исполнение в объект управления. Параллельно этому процессу, блок расчета подкрепления рассчитывает полученное подкрепление и подает его на блок расчета временной разности, который рассчитывает ошибку временной разности и если ошибка существенная, то блок расчета временной разности останавливает работу критика и переобучает его на новых данных.
Недостатками данного контроллера являются - недостаточные адаптационные свойства, сложность обучения нейронной сети блока критика и решающей нейронной сети, ограниченные возможности работы блока выбора действия.
Общий недостаток устройств на основе сетей адаптивных критиков состоит в том, что базовый подход не является обобщенным и достаточным для построения универсальной адаптивной системы управления объектом, действующим в недетерминированной среде. Система управления не может радикально менять свое поведение и вырабатывать новые реакции при абсолютно новых, неизвестных данных о состоянии окружающей среды и объекта управления (D. Prokhorov, D. Wanch. Adaptive critic designs. IEEE transactions on Neural Networks, September 1997. pp. 997-1007). Ввиду того, что система должна управляться в режиме реального времени, ее недостатками являются большое количество вычислений и сложность дообучения нейронных сетей.
Задача - усовершенствование модифицированного интеллектуального контроллера с адаптивным критиком и расширение функциональных возможностей.
Техническим результатом предлагаемого устройства является повышение адаптационных свойств системы управления на базе интеллектуального контроллера, повышение его скоростных характеристик и упрощение конечной реализации для разработчика.
Технический результат достигается тем, что в модифицированном интеллектуальном контроллере с адаптивным критиком содержащем блок расчета подкрепления, блок расчета временной разности, блок критика, решающую нейронную сеть, блок отбора действий, блок действий, блок выбора действий, объект управления, первый и второй выходы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входами блока отбора действий, а также с первым и вторым входами блока расчета подкрепления, первый выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, первый выход блока выбора действий связан с первым входом объекта управления, второй выход блока критика связан с первым входом блока выбора действий, первый выход решающей нейронной сети связан с первым входом блока критика, второй выход блока действий связан с пятым входом блока отбора действий, третий выход блока отбора действий связан с первым входом блока действий, первый выход блока отбора действий связан с третьим входом решающей нейронной сети, второй выход блока отбора действий связан со вторым входом блока критика, введены блок обучения нейронных сетей, первый выход блока расчета подкрепления также связан с пятым входом блока действий, первый выход блока расчета временной разности связан с четвертым входом блока действий и первым входом блока обучения нейронных сетей, второй выход блока расчета временной разности связан с третьим входом блока критика, первый выход блока критика связан с четвертым входом блока расчета временной разности, второй выход блока критика также связан со вторым входом блока обучения нейронных сетей, третий выход блока критика связан с третьим входом блока отбора действий, первый выход блока обучения нейронных сетей связан с первым входом блока критика и вторым входом решающей нейронной сети, второй выход блока обучения нейронных сетей связан со вторым входом блока критика и первым входом решающей нейронной сети, третий выход блока обучения нейронных сетей связан с третьим входом блока действий, четвертый выход блока обучения нейронных сетей связан с четвертым входом блока отбора действий, первый выход решающей нейронной сети связан также с четвертым входом блока обучения нейронных сетей, второй выход блока отбора действий связан также со вторым входом блока выбора действий, первый выход блока действий связан с пятым входом блока расчета временной разности, третий выход блока действий связан с третьим входом блока обучения нейронных сетей, первый выход блока выбора действий также связан со вторым входом блока действий.
Повышение адаптационных свойств системы управления на базе интеллектуального контроллера, достигается за счет выделения процесса обучения нейронной сети блока критика и решающей нейронной сети в блок обучения нейронных сетей, при этом данный блок обучает и нейронную сеть блока критика и решающую нейронную сеть. Другим важным моментом является то, что работа с блоком действий строится по новому принципу с использованием блока отбора действий, блока выбора действий, блока обучения нейронных сетей, блока расчета временной разности и блока расчета подкрепления. Скоростные характеристики работы системы повышаются за счет блока отбора действий, который ограничивает возможные действия не подходящие по минимально заданному подкреплению, а также прямым обращением к блоку действий блока отбора действий, блока критика, блока расчета подкрепления и блока расчета временной разности. Упрощение реализации для разработчика заключается в модернизации взаимодействия блоков расчета подкрепления, блока расчета временной разности и блока выбора действий с блоком действий, а также выделение процесса обучения нейронной сети блока критика и решающей нейронной сети в отдельный блок.
Таким образом, совокупность существенных признаков, изложенных в формуле изобретения, позволяет достигнуть желаемый результат.
На фиг. 1 изображена схема модифицированного интеллектуального контроллера с адаптивным критиком, который состоит из нескольких структурных компонент: блока расчета подкрепления 1, блока расчета временной разности 2, блока критика 3, блока выбора действия 4, блока обучения нейронных сетей 5, решающей нейронной сети 6, блока отбора действий 7, блока действий 8, объекта управления 9.
Также в системе присутствуют следующие связи - от объекта управления 9 к блоку расчета подкрепления 1 идут связи 10.1 и 11.1, от объекта управления 9 на блок расчета временной разности 2 идут сигналы по связям 10.2 и 11.2, от объекта управления 9 на решающую нейронную сеть 6 идут сигналы по связям 10.3 и 11.3, от объекта управления 9 на блок отбора действий 7 идут сигналы по связям 10.4 и 11.4, от блока расчета подкрепления 1 на блок расчета временной разности 2 идет сигнал по связи 12.1, блок расчета подкрепления 1 и блок действий 8 связаны по сигналу 12.2, от блока действий 8 идет связь 13 на блок расчета временной разности 2, от блока критика 3 идет связь 14 на блок расчета временной разности 2, от блока расчета временной разности 2 идет сигнал на блок критика 3 по связи 15, от блока расчета временной разности 2 идет связь 16.1 на блок обучения нейронных сетей 5 и связь 16.2 на блок действий 8, от блока критика 3 идет связь 17.1 на блок выбора действий 4 и связь 17.2 на блок обучения нейронных сетей 5, от блока отбора действий 7 идет связь 18.1 на блок критика 3 и связь 18.2 на блок выбора действий 4, от решающей нейронной сети 6 идет связь 19.1 на блок критика 3 и связь 19.2 на блок обучения нейронных сетей 5, от блока обучения нейронных сетей 5 идет связь 20.1 на блок критика 3 и связь 20.2 на решающую нейронную сеть 6, от блока действий 8 идет сигнал по связи 21 на блок обучения нейронных сетей 5, от блока обучения нейронных сетей 5 идет связь 22 на блок действий 8, от решающей нейронной сети 6 идет сигнал на блок отбора действий 7 по связи 26, от блока обучения нейронных сетей 5 идут сигналы по связи 24.1 на блок критика 3 и по связи 24.2 на решающую нейронную сеть 6, блок критика 3 и блок отбора действий 7 соединены по связи 25, блок отбора действий 7 и решающая нейронная сеть 6 соединены по связи 26, от блока действий 8 на блок отбора действий 7 идет сигнал по связи 27, от блока отбора действий 7 идет сигнал 28 на блок действий 8, блок выбора действий 4 по связи 29.1 соединен с блоком действий 8 и по связи 29.2 соединен с объектом управления 9.
Блок расчета подкрепления 1 предназначен для расчета подкрепления работы интеллектуального контроллера. Формула расчета подкрепления задается разработчиком.
Блок расчета временной разности 2 предназначен для расчета временной разности (Саттон Р., Барто А. «Обучение с подкреплением». БИНОМ: Лаборатория знаний. 2012. 399 с.).
Блок критика 3 предназначен для расчета прогнозного значения качества ситуации последующей при выборе определенного действия. Для расчета качества ситуации используется послойно - полносвязная нейронная сеть прямого распространения сигнала (многослойный персептрон).
Блок выбора действия 4 предназначен для выбора конкретного действия из всех возможных в данной ситуации. При выборе используется так называемое «жадное правило» (Саттон Р., Барто А. «Обучение с подкреплением». БИНОМ: Лаборатория знаний. 2012. 399 с, которое можно записать как «с вероятностью ε (0<ε≤1) выбирается то действие, которому соответствует максимальное значение качества ситуации».
Блок обучения нейронных сетей 5 предназначен для обучения нейронных сетей критика и решающей нейронной сети.
Решающая нейронная сеть 6, предназначена для прогнозирования следующего значения рабочего параметра системы (рабочих параметров может быть несколько). Под рабочим параметром понимается тот параметр системы, оценивая который, система может определить, как она работает, либо это параметр, который служит ориентиром для работы системы.
Блок отбора действий 7 предназначен для отбора всех возможных действий в данной ситуации с учетом минимального накопленного подкрепления для каждого возможного действия.
Блок действий 8 предназначен для хранения таблицы возможных действий во всех возможных ситуациях, истории работы объекта управления (ситуация -> действие) и накопленного подкрепления при совершении определенного действия в определенной ситуации.
Заявленное устройство работает следующим образом.
1. Объект управления 9 выполняет действие и на выходах формируются сигналы состояния объекта управления 10 и внешней среды 11, которые поступают в блок отбора действий 7 по связям 10.4 и 11.4 соответственно, на решающую нейронную сеть 6 по связям 10.3 и 11.3, на блок расчета подкрепления 1 по связям 10.1 и 11.1 и блок расчета временной разности 2 по связям 10.2 и 11.2.
2. При поступлении новых данных от объекта управления 9 по сигналам состояния объекта 10.4 и внешней среды 11.4, блок отбора действий 7 запрашивает по связи 28 у блока действий 8 возможные действия в данной ситуации и по связи 27 получает их. Получив возможные действия, блок отбора действий 7 синхронно с решающей нейронной сетью 6 начинает подавать попарно значения {возможное действие; прогноз рабочего параметра) на блок критика 3 по связям: 18.1 - возможное действие от блока отбора действий 7 и 19.1 - прогноз рабочего параметра от решающей нейронной сети 6. При этом блок отбора действий 7 подает поочередно различные действия, а решающая нейронная сеть 6 только одно вычисленное прогнозное значение рабочего параметра. Синхронизация блока отбора действий 7 с решающей нейронной сетью 6 идет по связи 26, при этом блок отбора действий 7 ждет момента, когда решающая нейронная сеть 6 выдаст прогноз рабочего параметра.
3. Решающая нейронная сеть 6, получив новые значения состояния объекта управления и внешней среды по связям 10.3 и 11.3 соответственно, вычисляет прогнозное значение рабочего параметра на следующую временную итерацию. Решающая нейронная сеть 6 после вычисления прогнозного значения рабочего параметра подает синхронизирующий сигнал по связи 26 на блок отбора действий 7 и подает вычисленное значение на блок критика 3 по связи 19.1 совместно с сигналом по связи 18.1 от блока отбора действий 7, который содержит возможное действие.
4. Блок критика 3, получая сигналы {возможное_действие; прогноз_рабочего параметра) по связям 18.1 и 19.1 от блока отбора действий 7 и блока решающей нейронной сети 6 вычисляет возможное будущее подкрепление для поданного действия. При этом блок отбора действий 7 подает на блок критика 3 по связи 18.1 последовательно столько действий сколько их возможно в данной ситуации. Соответственно блок критика 3, вычисляет столько значений возможных будущих подкреплений, сколько вариантов действий предоставил блок отбора действий 7. После вычисления каждого значения возможного подкрепления, блок критика 3 посылает синхронизирующий сигнал по связи 25 на блок отбора действий 7 о возможности приема новых данных и параллельно посылает рассчитанное значение по связи 17.1 на блок выбора действий 4.
5. Блок выбора действий 4 запоминает все пришедшие к нему значения {возможное действие; качество действия} и, основываясь на ε - жадном правиле, выбирает текущее действие и посылает его по связи 29.2 на объект управления 9. Выбранное действие также посылается на блок действий 8 по связи 29.1.
6. Блок расчета подкрепления 1, получая значения текущего состояния среды и объекта управления по связям 10.1 и 11.1 соответственно, вычисляет по заданной формуле значение полученного подкрепления за последнюю отработанную итерацию управления. Полученное значение рассчитанного подкрепления по связи 12.1 подается в блок расчета временной разности 2, который рассчитывает значение текущей временной разности. Если значение ошибки временной разности выше заданного разработчиком порога (т.е. большая ошибка) и получаемое подкрепление снижается, то блок расчета временной разности 2 посылает сигнал по связи 16.1 на блок обучения нейронных сетей 5 о начале дообучения блока критика 3. Также блок расчета временной разности 2 записывает данные о текущей временной разности в блок действий 8 по связи 16.2.
7. Блок обучения нейронных сетей 5, получив сигнал по связи 16.1 от блока расчета временной разности 2 о начале переобучения блока критика 3 посылает сигнал 23 на блок отбора действий 7 о приостановлении работы по выбору действий, то есть отключается блок решающей нейронной сети 6 и блок критика 3. При этом объект управления 9, блок расчета подкрепления 1 и блок действий 8 работают в обычном режиме, но объект управления 9 не предпринимает никаких действий или отрабатывает последнюю команду от блока выбора действий 4 (в зависимости от реализуемой задачи).
8. Блок обучения нейронных сетей 5, получив сигнал по связи 16.1 от блока расчета временной разности 2, в случае большой ошибки прогноза рабочего параметра, формирует наборы {входы; выходы}, запрашивая данные у блока действий 8 по связи 22 и принимая их по связи 21 начинает обучение нейронной сети блока критика 3. При этом в процессе обучения блок обучения нейронных сетей 5 подает на входы блока критика 3 по связям 20.1 и 24.1 значения, полученные от блока действий 8 и решающей нейронной сети 6, снимает данные с выхода блока критика 3 по связи 17.2. Обучение происходит по методу обратного распространения ошибки. Корректировка синаптических связей нейронной сети критика 3 происходит по сигналу 20.1. В случае если ошибка обучения нейронной сети блока критика 3 меньше заданной разработчиком, то блок обучения нейронных сетей 5 останавливает обучение нейронной сети блока критика 3 и посылает сигнал по связи 23 на блок отбора действий 7 о продолжении работы устройства в рабочем режиме.
9. Блок обучения нейронных сетей 5 получив сигнал 16.1 от блока расчета временной разности 2, также начинает переобучение решающей нейронной сети 6. Вначале блок обучения нейронных сетей 5 посылает сигнал 23 на блок отбора действий 7 о приостановлении работы по выбору действий, то есть отключаются блок решающей нейронной сети 6 и блок критика 3. При этом объект управления 9, блок расчета подкрепления 1 и блок действий 8 работают в обычном режиме, но объект управления 9 не предпринимает никаких действий или отрабатывает последнюю команду от блока выбора действий 4 (в зависимости от реализуемой задачи). Далее, блок обучения нейронных сетей 5 по сигналу 22 запрашивает обучающую выборку для решающей нейронной сети 6 у блока действий 8 и получает данные по сигналу 21. Получив обучающую выборку, блок обучения нейронных сетей 5 начинает обучение решающей нейронной сети 6 по алгоритму обратного распространения ошибки. По сигналам 20.2 и 24.2 подаются данные на входы решающей нейронной сети 6, а по сигналу 19.2 снимаются данные с выхода решающей нейронной сети 6. Корректировка синаптических связей решающей нейронной сети происходит по сигналу 20.2. В случае если ошибка обучения решающей нейронной сети 6 меньше заданной разработчиком, то блок обучения нейронных сетей 5 останавливает обучение решающей нейронной сети 6 и посылает сигнал на блок отбора действий 7 по сигналу 26 о продолжении рабочего режима работы.
название | год | авторы | номер документа |
---|---|---|---|
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ | 2013 |
|
RU2523218C1 |
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ | 2011 |
|
RU2450336C1 |
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР | 2013 |
|
RU2527212C1 |
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР | 2011 |
|
RU2458390C1 |
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С НЕЧЕТКИМИ ПРАВИЛАМИ | 2012 |
|
RU2504002C1 |
ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С НЕЙРОННОЙ СЕТЬЮ И ПРАВИЛАМИ САМОМОДИФИКАЦИИ | 2003 |
|
RU2266558C2 |
Способ для создания контроллеров управления шагающими роботами на основе обучения с подкреплением | 2022 |
|
RU2816639C1 |
ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С ПРАВИЛАМИ САМОМОДИФИКАЦИИ ОБУЧАЮЩЕЙ И УПРАВЛЯЮЩЕЙ НЕЙРОННЫХ СЕТЕЙ | 2011 |
|
RU2447494C1 |
Модифицированный интеллектуальный контроллер с нечеткими правилами и блоком обучения нейросети | 2021 |
|
RU2774625C1 |
Модифицированный контроллер управления обучением нейронной сети с генетическим алгоритмом | 2021 |
|
RU2784749C2 |
Изобретение относится к области вычислительной техники. Технический результат заключается в повышении адаптационных свойств системы управления и повышении скоростных характеристик. Технический результат достигается за счёт того, что модифицированный интеллектуальный контроллер с адаптивным критиком содержит блок расчета подкрепления, блок расчета временной разности, блок критика, блок обучения нейронных сетей, решающую нейронную сеть, блок отбора действий, блок действий, блок выбора действий, объект управления. 1 ил.
Модифицированный интеллектуальный контроллер с адаптивным критиком, содержащий блок расчета подкрепления, блок расчета временной разности, блок критика, решающую нейронную сеть, блок отбора действий, блок действий, блок выбора действий, объект управления, первый и второй выходы объекта управления связаны с первым и вторым входами решающей нейронной сети, первым и вторым входами блока расчета временной разности, первым и вторым входами блока отбора действий, а также с первым и вторым входами блока расчета подкрепления, первый выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, первый выход блока выбора действий связан с первым входом объекта управления, второй выход блока критика связан с первым входом блока выбора действий, первый выход решающей нейронной сети связан с первым входом блока критика, второй выход блока действий связан с пятым входом блока отбора действий, третий выход блока отбора действий связан с первым входом блока действий, первый выход блока отбора действий связан с третьим входом решающей нейронной сети, второй выход блока отбора действий связан со вторым входом блока критика, отличающийся тем, что дополнительно установлен блок обучения нейронных сетей, при этом первый выход блока расчета подкрепления также связан с пятым входом блока действий, первый выход блока расчета временной разности связан с четвертым входом блока действий и первым входом блока обучения нейронных сетей, второй выход блока расчета временной разности связан с третьим входом блока критика, первый выход блока критика связан с четвертым входом блока расчета временной разности, второй выход блока критика также связан со вторым входом блока обучения нейронных сетей, третий выход блока критика связан с третьим входом блока отбора действий, первый выход блока обучения нейронных сетей связан с первым входом блока критика и вторым входом решающей нейронной сети, второй выход блока обучения нейронных сетей связан со вторым входом блока критика и первым входом решающей нейронной сети, третий выход блока обучения нейронных сетей связан с третьим входом блока действий, четвертый выход блока обучения нейронных сетей связан с четвертым входом блока отбора действий, первый выход решающей нейронной сети связан с четвертым входом блока обучения нейронных сетей, второй выход блока отбора действий связан со вторым входом блока выбора действий, первый выход блока действий связан с пятым входом блока расчета временной разности, третий выход блока действий связан с третьим входом блока обучения нейронных сетей, первый выход блока выбора действий также связан со вторым входом блока действий.
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ | 2011 |
|
RU2450336C1 |
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ | 2013 |
|
RU2523218C1 |
US 9156165 B2, 13.10.2015 | |||
US 9367798 B2, 14.06.2016 | |||
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами | 1924 |
|
SU2017A1 |
Авторы
Даты
2021-09-15—Публикация
2020-12-16—Подача