Видеотека: А. А. Наумов, Математика обучения с подкреплением: от классических алгоритмов до RLHF

Видеотека

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Видеотека
	Архив
	Популярное видео

	Поиск
	RSS
	Новые поступления

Летняя школа «Современная математика» имени Виталия Арнольда, 2025
24 июля 2025 г. 15:30–16:45, Московская область, г. Дубна, дом отдыха «Ратмино»

Математика обучения с подкреплением: от классических алгоритмов до RLHF

А. А. Наумов

Аннотация: Обучение с подкреплением — одно из видов машинного обучения. Ключевая особенность этого метода заключается в постоянном взаимодействии агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие. В рамках лекции мы обсудим математику, которая лежит в основе обучения с подкреплением, разберем базовые алгоритмы и поговорим про исследование среды и парадигму оптимизма. В завершающей части лекции мы обсудим обучение с подкреплением с обратной связью от человека (RLHF), которое играет ключевую роль в современных больших языковых моделях.

Website: https://mccme.ru/dubna/2025/courses/naumov.html

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы