RUS  ENG ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB
Общая информация
Последний выпуск
Архив
Импакт-фактор
Подписка
Правила для авторов
Загрузить рукопись

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Теория вероятн. и ее примен.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Теория вероятн. и ее примен., 2019, том 64, выпуск 1, страницы 53–74 (Mi tvp5231)  

$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым

Д. Б. Рохлин

Южный федеральный университет, Институт математики, механики и компьютерных наук им. И. И. Воровича, Ростов-на-Дону, Россия

Аннотация: Рассматривается игра между лидером и ведомым, в которой действия игроков влияют на стохастическую динамику процесса состояний $x_t$, $t\in\mathbf Z_+$. Игроки наблюдают свои выигрыши и состояние $x_t$ системы. Переходное ядро процесса $x_t$ и функции доходов оппонента им неизвестны. На каждом шаге игры лидер выбирает действие $a_t$ первым. При выборе действия $b_t$ ведомому известно $a_t$. Действия ведомого лидеру неизвестны (неинформированный лидер).
Каждый из игроков стремится максимизировать дисконтированный критерий, применяя алгоритм $Q$-обучения. Рандомизированные стратегии игроков определяются распределениями Больцмана, зависящими от $Q$-функций, обновляемых в процессе обучения. Особенность рассматриваемого алгоритма состоит в том, что при обновлении своей $Q$-функции ведомый считает, что действие лидера в следующем состоянии будет таким же, как в текущем (наивный ведомый). Показано, что для сходимости алгоритма достаточно существования детерминированных стационарных стратегий, порождающих неразложимую марковскую цепь. Предельное поведение $Q$-функций игроков при больших значениях времени описано в терминах управляемых марковских процессов. Распределения действий игроков сходятся к распределениям Больцмана, зависящим от предельных $Q$-функций.

Ключевые слова: $Q$-обучение, лидер, ведомый, стохастическая игра Штакельберга, дисконтированный критерий, распределение Больцмана.

Финансовая поддержка Номер гранта
Российский научный фонд 17-19-01038
Работа выполнена при финансовой поддержке Российского научного фонда (проект № 17-19-01038).


DOI: https://doi.org/10.4213/tvp5231

Полный текст: PDF файл (512 kB)
Первая страница: PDF файл
Список литературы: PDF файл   HTML файл

Англоязычная версия:
Theory of Probability and its Applications, 2019, 64:1, 41–58

Реферативные базы данных:

Тип публикации: Статья
Поступила в редакцию: 18.06.2018
Исправленный вариант: 12.10.2018
Принята в печать:18.10.2018

Образец цитирования: Д. Б. Рохлин, “$Q$-обучение в стохастической игре Штакельберга между неинформированным лидером и наивным ведомым”, Теория вероятн. и ее примен., 64:1 (2019), 53–74; Theory Probab. Appl., 64:1 (2019), 41–58

Цитирование в формате AMSBIB
\RBibitem{Rok19}
\by Д.~Б.~Рохлин
\paper $Q$-обучение в~стохастической игре Штакельберга между неинформированным лидером и наивным ведомым
\jour Теория вероятн. и ее примен.
\yr 2019
\vol 64
\issue 1
\pages 53--74
\mathnet{http://mi.mathnet.ru/tvp5231}
\crossref{https://doi.org/10.4213/tvp5231}
\mathscinet{http://www.ams.org/mathscinet-getitem?mr=3904805}
\zmath{https://zbmath.org/?q=an:07062745}
\elib{http://elibrary.ru/item.asp?id=37090012}
\transl
\jour Theory Probab. Appl.
\yr 2019
\vol 64
\issue 1
\pages 41--58
\crossref{https://doi.org/10.1137/S0040585X97T989386}
\isi{http://gateway.isiknowledge.com/gateway/Gateway.cgi?GWVersion=2&SrcApp=PARTNER_APP&SrcAuth=LinksAMR&DestLinkType=FullRecord&DestApp=ALL_WOS&KeyUT=000466860200004}
\scopus{http://www.scopus.com/record/display.url?origin=inward&eid=2-s2.0-85067334309}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/tvp5231
  • https://doi.org/10.4213/tvp5231
  • http://mi.mathnet.ru/rus/tvp/v64/i1/p53

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles
  • Теория вероятностей и ее применения Theory of Probability and its Applications
    Просмотров:
    Эта страница:106
    Литература:14
    Первая стр.:11
     
    Обратная связь:
     Пользовательское соглашение  Регистрация  Логотипы © Математический институт им. В. А. Стеклова РАН, 2020