|
Доклады Российской академии наук. Математика, информатика, процессы управления, 2025, том 527, страницы 459–470 DOI: https://doi.org/10.7868/S2686954325070392
(Mi danma701)
|
|
|
|
СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
Бенчмарк на основе ISAACSIM для совместной оценки планирования задач и низкоуровневых стратегий в мобильной манипуляции
Н. Э. Качаевa, А. Н. Спиридоновa, А. С. Городецкийa, К. Ф. Муравьевbc, Н. С. Осколковc, А. Нарендраc, В. И. Шахуроad, Д. А. Макаровbc, А. И. Пановac, П. Д. Федотоваef, А. К. Ковалевac a AIRI, Москва, Россия
b Федеральный исследовательский центр «Информатика и управление» Российской академии наук, г. Москва
c Московский физико-технический институт, Долгопрудный, Россия
d Московский государственный университет имени М. В. Ломоносова
e Центр робототехники Сбера, Москва, Россия
f Сколковский институт науки и технологий, Москва, Россия
DOI:
https://doi.org/10.7868/S2686954325070392
Аннотация:
Бенчмарки играют ключевую роль в оценке прогресса в робототехнике и системах воплощенного искусственного интеллекта (Embodied AI). Однако существует разрыв между бенчмарками, ориентированными на выполнение языковых инструкций высокого уровня, которые часто предполагают безошибочное выполнение низкоуровневых действий, и бенчмарками для низкоуровневого управления роботами, ограничивающимися простыми одношаговыми командами. Этот разрыв мешает всесторонней оценке интегрированных систем, где одинаково важны как планирование задач, так и физическое выполнение действий. Для решения этой проблемы мы предлагаем Kitchen-R – новый бенчмарк, объединяющий оценку планирования задач и низкоуровневого управления в симулированной кухонной среде. Kitchen-R реализован как цифровой двойник с использованием симулятора Isaac Sim и включает более 500 сложных языковых инструкций. Бенчмарк поддерживает работу мобильного манипуляционного робота. Мы предоставляем базовые методы, включая стратегию планирования задач на основе большой визуально-языковой модели (VLM) и низкоуровневую стратегию управления, основанную на diffusion policy. Кроме того, бенчмарк включает систему сбора траекторий. Kitchen-R представляет собой гибкий фреймворк, поддерживающий три режима оценки – независимую оценку модуля планирования, независимую оценку стратегии управления и, что особенно важно, интегрированную оценку всей системы. Таким образом, Kitchen-R устраняет ключевой пробел в исследованиях Embodied AI, обеспечивая более комплексную и реалистичную оценку роботизированных агентов, управляемых языковыми инструкциями.
Ключевые слова:
бенчмарк, робототехника, воплощенный ИИ, планирование задач, мобильная манипуляция, симуляция.
Поступило: 21.08.2025 Принято к публикации: 28.09.2025
Образец цитирования:
Н. Э. Качаев, А. Н. Спиридонов, А. С. Городецкий, К. Ф. Муравьев, Н. С. Осколков, А. Нарендра, В. И. Шахуро, Д. А. Макаров, А. И. Панов, П. Д. Федотова, А. К. Ковалев, “Бенчмарк на основе ISAACSIM для совместной оценки планирования задач и низкоуровневых стратегий в мобильной манипуляции”, Докл. РАН. Матем., информ., проц. упр., 527 (2025), 459–470
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma701 https://www.mathnet.ru/rus/danma/v527/p459
|
| Статистика просмотров: |
| Страница аннотации: | 66 | | Список литературы: | 1 |
|