Семинары
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Календарь
Поиск
Регистрация семинара

RSS
Ближайшие семинары




Коллоквиум Факультета компьютерных наук НИУ ВШЭ
11 февраля 2025 г. 16:20–17:40, г. Москва, Покровский бульвар 11
 


Обучение с подкреплением как универсальный инструмент тонкой настройки: от RLHF до DeepSeek

Александр Панов



Аннотация: В последнее время обучение с подкреплением является не только самодостаточным методом поиска стратегии для различных типов марковских процессов, но и служит признанным эффективнм инструментом дообучения больших (базовых) моделей. В докладе мы рассмотрим то, как устроена комбинация обучения с учителем (или самообучения) и адаптации под дополнительный сигнал вознаграждения. Разберем, как этот процесс работает для языковых моделей и для мультимодальных архитектур. Остановимся также на робототехнических приложениях с использованием современных поведенческих моделей.

Website: https://vk.com/cshse?z=video-69306530_456239995
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025