Доклады Российской академии наук. Математика, информатика, процессы управления
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Докл. РАН. Матем., информ., проц. упр.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Доклады Российской академии наук. Математика, информатика, процессы управления, 2025, том 527, страницы 262–269
DOI: https://doi.org/10.7868/S2686954325070227
(Mi danma684)
 

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

RE:FRAME – извлечение опыта из ассоциативной памяти

Д. В. Зелезецкийab, Е. К. Черепановab, А. К. Ковалёвab, А. И. Пановab

a Московский физико-технический институт (национальный исследовательский университет), Долгопрудный, Россия
b Институт искусственного интеллекта AIRI, Москва, Россия
DOI: https://doi.org/10.7868/S2686954325070227
Аннотация: Автономное ОП нередко вынуждено опираться на субоптимальные данные, поскольку сбор крупных экспертных траекторий либо невозможен, либо экономически нецелесообразен. В таких условиях агенту трудно развивать навыки обобщения и достигать высоких вознаграждений, так как обучение ведется в основном на несовершенных траекториях. Центральная задача в рамках этой статьи – наилучшим образом совместить дефицитные экспертные демонстрации с доступными по объему, но менее качественными данными. Мы показываем, что даже очень небольшой объем экспертного опыта способен заметно повысить результативность. Мы представляем Re:Frame (Retrieving Experience From Associative Memory) – подключаемый модуль, дополняющий стандартную автономную стратегию компактным внешним Буфером Ассоциативной Памяти (БАП), сформированным из экспертных траекторий отдельного набора данных. При обучении на низкокачественных данных стратегия учится по текущему состоянию извлекать из БАП схожий релевантный экспертный опыт и интегрировать его в процесс принятия решений, при этом тот же БАП запрашивается и на этапе оценки. Метод не требует взаимодействия со средой и не изменяет архитектуру базовой модели. На задачах D4RL MuJoCo использование всего 60 экспертных траекторий (0.1% от 6000) стабильно улучшает базовые показатели Decision Transformer модели в трех из четырех задач, достигая прироста до +10.7 нормированных пунктов. Тем самым Re:Frame предоставляет простой и эффективный путь инъекции редких экспертных знаний в автономное ОП на низкокачественных датасетах.
Ключевые слова: обучение с подкреплением (ОП), глубокое обучение, ассоциативная память.
Поступило: 21.08.2025
Принято к публикации: 22.09.2025
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.8
Образец цитирования: Д. В. Зелезецкий, Е. К. Черепанов, А. К. Ковалёв, А. И. Панов, “RE:FRAME – извлечение опыта из ассоциативной памяти”, Докл. РАН. Матем., информ., проц. упр., 527 (2025), 262–269
Цитирование в формате AMSBIB
\RBibitem{ZelCheKov25}
\by Д.~В.~Зелезецкий, Е.~К.~Черепанов, А.~К.~Ковалёв, А.~И.~Панов
\paper RE:FRAME -- извлечение опыта из ассоциативной памяти
\jour Докл. РАН. Матем., информ., проц. упр.
\yr 2025
\vol 527
\pages 262--269
\mathnet{http://mi.mathnet.ru/danma684}
\elib{https://elibrary.ru/item.asp?id=83189209}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/danma684
  • https://www.mathnet.ru/rus/danma/v527/p262
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Доклады Российской академии наук. Математика, информатика, процессы управления Доклады Российской академии наук. Математика, информатика, процессы управления
    Статистика просмотров:
    Страница аннотации:45
    Список литературы:1
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2026