Видеотека
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Видеотека
Архив
Популярное видео

Поиск
RSS
Новые поступления






Летняя школа «Современная математика» имени Виталия Арнольда, 2025
24 июля 2025 г. 15:30–16:45, Московская область, г. Дубна, дом отдыха «Ратмино»
 


Математика обучения с подкреплением: от классических алгоритмов до RLHF

А. А. Наумов

А. А. Наумов



Аннотация: Обучение с подкреплением — одно из видов машинного обучения. Ключевая особенность этого метода заключается в постоянном взаимодействии агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие. В рамках лекции мы обсудим математику, которая лежит в основе обучения с подкреплением, разберем базовые алгоритмы и поговорим про исследование среды и парадигму оптимизма. В завершающей части лекции мы обсудим обучение с подкреплением с обратной связью от человека (RLHF), которое играет ключевую роль в современных больших языковых моделях.

Website: https://mccme.ru/dubna/2025/courses/naumov.html
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025