МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ Российский патент 2012 года по МПК G06F15/00 

Описание патента на изобретение RU2450336C1

Изобретение относится к классу интеллектуальных контроллеров, использующих принцип обучения с подкреплением, и может использоваться для создания систем управления объектами, работающими в недетерминированной среде.

Известен патент США МПК G06F 15/18, 6532454 «Stable adaptive control using critic designs», который реализует обучение с подкреплением с использованием нейронных сетей. Устройство по данному патенту состоит из решающей и моделирующей нейронных сетей, блока критики, а также блока вычисления ошибки прогнозирования и связей между блоками.

Принцип работы устройства по патенту МПК G06F 15/18, 6532454 следующий - решающая нейронная сеть получает значение подкрепления, вычисляет действие на данной итерации и передает его на моделирующую нейронную сеть, которая вычисляет прогнозное значение рабочего параметра системы, после выполнения действия система получает реальное значение рабочего параметра, критик вычисляет новое значение подкрепления и корректируется работа моделирующей нейронной сети.

Известен также интеллектуальный контроллер на основе сетей адаптивной критики - патент США МПК G06F 15/18, 5448681. Данное устройство состоит из объекта управления, блок критика и решающей нейронной сети. Выходы объекта управления связаны с входами блока критика, а также входами решающей нейронной сети, выход решающей нейронной сети связан с объектом управления и блоком критика, выход сети критика связан с входом решающей нейронной сети.

Принцип работы устройства по патенту МПК G06F 15/18, 6532454 следующий - объект управления выдает сигнал о своем состоянии, блок критика вычисляет качество выбираемого действия для текущей временной итерации и состояния объекта, решающая нейронная сеть вычисляет управляющее воздействие.

Недостатками устройств по патенту МПК G06F 15/18, 6532454 является то, что в них не запоминается история работы системы и критик работает по первоначально настроенным параметрам.

Недостатками устройств по патенту МПК G06F 15/18, 4563746 являются - нет блока запоминания истории работы системы и низкие адаптационные свойства в связи с жестко заданным принципом работы блока критика.

Техническим результатом предлагаемого устройства является повышение адаптационных свойств за счет перенастройки критика во время работы устройства.

Задача - разработка модифицированного интеллектуального контроллера с адаптивным критиком с возможностью перенастройки критика во время работы устройства.

Технический результат достигается тем, что в модифицированном интеллектуальном контролере с адаптивным критиком, содержащем объект управления, блок критика, решающую нейронную сеть, первый выход объекта управления связан с первым входом решающей нейронной сети, второй выход объекта управления связан со вторым входом решающей нейронной сети, выход решающей нейронной сети связан с первым входом блока критика, и в него введены блок действий, блок расчета временной разности, блок расчета подкрепления и блок выбора действия, при этом первый выход объекта управления связан также с первым входом блока действий, первым входом блока расчета временной разности и первым входом блока расчета подкрепления, второй выход объекта управления также связан со вторым входом блока действий, вторым входом блока расчета временной разности и вторым входом блока расчета подкрепления, выход блока действий связан со вторым входом блока критика, первый и второй выходы блока расчета временной разности связаны с первым и вторым входами блока критика, а третий выход связан с выходом блока критика, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока критика связан с четвертым входом блока расчета временной разности, выход блока критика также связан с входом блока выбора действия, первый выход блока выбора действия связан третьим входом блока действий, а второй выход блока выбора действия связан с входом объекта управления.

Повышение адаптационных свойств достигается за счет того, что в модифицированном интеллектуальном контроллере с адаптивным критиком добавлены блок расчета временной разности и блок расчета подкрепления, которые отвечают соответственно за расчет временной разности и подкрепления, при этом блок расчета временной разности также дообучает критика во время работы системы. Кроме того, в систему введен блок выбора действий из возможных, после обработки их блоком критика. Для запоминания предыдущих результатов работы в устройство добавлен блок действий, который сохраняет историю работы системы и выбирает возможные действия в конкретной ситуации.

Таким образом совокупность существующих признаков, изложенных в формуле изобретения, позволяет достичь желаемый технический результат.

На фиг.1 изображена схема модифицированного интеллектуального контроллера с адаптивным критиком.

Система состоит из нескольких структурных компонент: объекта управления 1, блока действий 2, решающей нейронной сети 3, блока критика 4, блока расчета временной разности 5, блока расчета подкрепления 6, блока выбора действия 7.

Также в системе присутствуют следующие связи: от объекта управления идет выход по состоянию объекта управления 8, который соединен с блоком действий по входу 8.1, решающей нейронной сетью по входу 8.2, блоком расчета временной разности по входу 8.3 и блоком расчета подкрепления по входу 8.4. Также от объекта управления идет сигнал по состоянию окружающей среды 9, который соединен с блоком действий по входу 9.1, решающей нейронной сетью по входу 9.2, блоком расчета временной разности по входу 9.3 и блоком расчета подкрепления по входу 9.4. От блока действия идет связь на блок критика 10. От решающей нейронной сети идет связь на блок критика 11. Выход блока критика соединен с входом блока выбора действий по сигналу 12 и входом блока расчета временной разности по сигналу 13. Выходы блока расчета временной разности связаны с входами критика по сигналам 14, 15 и выходом по сигналу 16. От блока расчета подкрепления идет сигнал на блок расчета временной разности по сигналу 17. Первый выход блока выбора действия соединен с входом блока действий 18, а второй с объектом управления по сигналу 19.

Блок действий 2 предназначен для хранения таблицы возможных действий во всех возможных ситуациях и выбора возможных действий в данной конкретной ситуации.

Решающая нейронная сеть 3 предназначена для прогнозирования следующего значения рабочего параметра системы (или нескольких параметров). Под рабочим параметром понимается тот параметр системы, оценивая который система может определить, как она работает, либо это параметр, который служит ориентиром для работы системы (рабочих параметров может быть несколько).

Блок критика 4 предназначен для расчета качества ситуации V(t), последующей при выборе определенного действия.

Блок расчета временной разности 5 предназначен для расчета временной разности по формуле:

δ(t)=r(t)+γ·V(t)-V(t-1),

где γ∈(0;1] - коэффициент забывания.

Блок расчета подкрепления 6 предназначен для расчета подкрепления r(t). Формула расчета подкрепления задается разработчиком.

Блок выбора действия 7 предназначен для выбора конкретного действия из всех возможных в данной ситуации. При выборе используется так называемое «ε - жадное правило» (Sutton R., Barto A. Reinforcement Learning: An Introducion. - Cambridge: MIT Press, 1998), которое можно записать как: с вероятностью (1-ε) выбирается то действие, которому соответствует максимальное значение качества ситуации при этом 0<ε<<1.

Принцип работы интеллектуального контроллера следующий. Объект управления 1 выполняет действие и образует на выходе сигналы состояния объекта управления 8 и окружающей среды 9. Данные сигналы идут на следующие блоки: блок действий 2 - сигналы 8.1 и 9.1, решающую нейронную сеть 3 - сигналы 8.2 и 9.2, блок расчета временной разности 5 - сигналы 8.3 и 9.3, блок расчета подкрепления 6 - сигналы 8.4 и 9.4. При этом блок действий 2 сохраняет значения состояния окружающей среды и объекта управления, а также сигнал управления на данной итерации 18, идущий от блока выбора действий 7.

Решающая нейронная сеть 3, получая значения состояния объекта управления 8.2 и окружающей среды 9.2, прогнозирует следующее значение рабочего параметра 11 и подает его на вход блока критика 4. На блок критика также последовательно подаются все возможные варианты действий, которые может совершить объект в текущей ситуации - данный сигнал идет по связи 10 от блока действий 2. Блок критика последовательно для каждой пары значений {возможное действие; прогнозное значение рабочего параметра} выдает значение качества V, которое вместе с возможным действием идет на блок расчета временной разности 16 и блок выбора действий 12. Блок выбора действий 7 запоминает все пришедшие к нему значения {возможное действие; качество действия} и, основываясь на ε - жадном правиле, выбирает текущее действие 19 и посылает его на объект управления 1. Выбранное действие 18 также посылается на блок действий 2.

Одновременно с выбором действия блоком выбора действия и отработкой его объектом управления, в блоке расчета подкрепления 6 рассчитывается текущее значение подкрепления 17, которое передается в блок расчета временной разности 5. Блок расчета временной разности в свою очередь рассчитывает значение временной разности и, если необходимо, переобучает нейронную сеть блока критика.

Решающая нейронная сеть - это стандартный многослойный персептрон с обучением по методу обратного распространения ошибки. Блок критика - также стандартный многослойный персептрон с обучением по методу обратного распространения ошибки. Параметры нейронных сетей выбираются в зависимости от решаемой задачи.

Обучение блока критика во время работы по изменившейся и вновь поступившей временной разности происходит следующим образом: блок расчета временной разности по сигналам 14 и 15 подает сохраненные пары {сигнал управления; прогнозное значение рабочего параметра}, а по сигналу 16 подает желаемое значение выхода. Обучение методом обратного распространения ошибки происходит до тех пор, пока ошибка нейронной сети критика не станет меньше заданной, при этом реальное значение нейронной сети критика поступает в блок расчета временной разности по сигналу 15 (Rumelhart D.Е., Hinton G.Е., Williams R.J., "Learning representations by back-propagating errors," Nature, vol.323, pp.533-536, 1986).

Похожие патенты RU2450336C1

название год авторы номер документа
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ 2013
  • Ключко Владимир Игнатьевич
  • Шумков Евгений Александрович
  • Карнизьян Роман Оганесович
RU2523218C1
Модифицированный интеллектуальный контроллер с адаптивным критиком 2020
  • Шумков Евгений Александрович
RU2755339C1
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР 2011
  • Шумков Евгений Александрович
  • Ботин Валерий Александрович
RU2458390C1
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С НЕЧЕТКИМИ ПРАВИЛАМИ 2012
  • Шумков Евгений Александрович
RU2504002C1
МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР 2013
  • Ключко Владимир Игнатьевич
  • Шумков Евгений Александрович
  • Чистик Игорь Константинович
RU2527212C1
ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С НЕЙРОННОЙ СЕТЬЮ И ПРАВИЛАМИ САМОМОДИФИКАЦИИ 2003
  • Ключко В.И.
  • Шумков Е.А.
  • Стасевич В.П.
RU2266558C2
ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С ПРАВИЛАМИ САМОМОДИФИКАЦИИ ОБУЧАЮЩЕЙ И УПРАВЛЯЮЩЕЙ НЕЙРОННЫХ СЕТЕЙ 2011
  • Ключко Владимир Игнатьевич
  • Шумков Евгений Александрович
  • Стасевич Владимир Павлович
  • Карлов Дмитрий Николаевич
RU2447494C1
Способ для создания контроллеров управления шагающими роботами на основе обучения с подкреплением 2022
  • Бабаев Азер Кахраман Оглы
  • Волченков Андрей Валерьевич
  • Горбачев Роман Александрович
  • Давыденко Егор Викторович
  • Доржиева Екатерина Матвеевна
  • Литвиненко Владимир Викторович
  • Минашина Инна Константиновна
  • Сытник Кирилл Игоревич
RU2816639C1
Модифицированный интеллектуальный контроллер с нечеткими правилами и блоком обучения нейросети 2021
  • Шумков Евгений Александрович
RU2774625C1
НЕЙРОСЕТЕВОЙ РЕГУЛЯТОР ДЛЯ УПРАВЛЕНИЯ ПРОЦЕССОМ ОБЖИГА ИЗВЕСТНЯКА В ПЕЧАХ ШАХТНОГО ТИПА 2009
  • Котелева Наталья Ивановна
  • Данилова Наталья Васильевна
RU2445668C2

Реферат патента 2012 года МОДИФИЦИРОВАННЫЙ ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С АДАПТИВНЫМ КРИТИКОМ

Изобретение относится к классу интеллектуальных контроллеров, использующих принцип обучения с подкреплением, и может использоваться для создания систем управления объектами, работающими в недетерминированной среде. Техническим результатом является повышение адаптационных свойств устройства за счет перенастройки критика во время работы устройства. Модифицированный интеллектуальный контроллер с адаптивным критиком содержит: объект управления, блок критика, решающую нейронную сеть, блок действий, блок расчета временной разности, блок расчета подкрепления и блок выбора действия и связи между ними. 1 ил.

Формула изобретения RU 2 450 336 C1

Модифицированный интеллектуальный контроллер с адаптивным критиком, содержащий объект управления, блок критика, решающую нейронную сеть, первый выход объекта управления связан с первым входом решающей нейронной сети, второй выход объекта управления связан со вторым входом решающей нейронной сети, выход решающей нейронной сети связан с первым входом блока критика, отличающийся тем, что в него введены блок действий, блок расчета временной разности, блок расчета подкрепления и блок выбора действия, при этом первый выход объекта управления связан также с первым входом блока действий, первым входом блока расчета временной разности и первым входом блока расчета подкрепления, второй выход объекта управления также связан со вторым входом блока действий, вторым входом блока расчета временной разности и вторым входом блока расчета подкрепления, выход блока действий связан со вторым входом блока критика, первый и второй выходы блока расчета временной разности связаны с первым и вторым входами блока критика, а третий выход связан с выходом блока критика, выход блока расчета подкрепления связан с третьим входом блока расчета временной разности, выход блока критика связан с четвертым входом блока расчета временной разности, выход блока критика также связан с входом блока выбора действия, первый выход блока выбора действия связан третьим входом блока действий, а второй выход блока выбора действия связан с входом объекта управления.

Документы, цитированные в отчете о поиске Патент 2012 года RU2450336C1

Способ подавления роста сульфатвосстанавливающих бактерий 1981
  • Усов Виталий Леонидович
  • Вавер Виктор Игоревич
SU976039A1
Устройство для регулирования режима бурения 1982
  • Брагин Павел Алексеевич
  • Караваев Борис Александрович
SU1059147A1
ВЫЧИСЛИТЕЛЬ С ПЕРЕПРОГРАММИРУЕМОЙ АРХИТЕКТУРОЙ 1996
  • Аряшев С.И.
  • Бобков С.Г.
RU2115161C1
ИНТЕЛЛЕКТУАЛЬНЫЙ КОНТРОЛЛЕР С НЕЙРОННОЙ СЕТЬЮ И ПРАВИЛАМИ САМОМОДИФИКАЦИИ 2003
  • Ключко В.И.
  • Шумков Е.А.
  • Стасевич В.П.
RU2266558C2

RU 2 450 336 C1

Авторы

Ключко Владимир Игнатьевич

Шумков Евгений Александрович

Даты

2012-05-10Публикация

2011-01-11Подача