Записки научных семинаров ПОМИ
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Зап. научн. сем. ПОМИ:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Записки научных семинаров ПОМИ, 2023, том 529, страницы 102–122 (Mi znsl7422)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

IMAD: IMage-Augmented multi-modal dialogue
[IMAD: мультимодальный диалог, дополненный изображениями]

V. Moskvoretskii, A. Frolov, D. Kuznetsov

DeepPavlov.ai
Список литературы:
Аннотация: В настоящее время диалоговые системы достигли отличных результатов при обработке текстовой коммуникации. Однако они еще не могут эффективно дополнять диалог визуальной информацией, что представляет собой серьезную проблему. Более того, существующие модели, включающие изображения в процесс создания диалога, фокусируются на обсуждении самого изображения. Предлагаемый нами подход представляет новый взгляд на мультимодальные диалоговые системы, которые интерпретируют изображение в контексте диалога. Тем самым мы стремимся расширить возможности существующих диалоговых систем и перевести их из одной модальности (текста) в область мультимодальности. Однако для этой задачи не хватает проверенных наборов данных на английском языке, содержащих как изображения, так и контексты диалогов. Таким образом, мы предлагаем двухэтапный подход для автоматического построения набора данных мультимодального диалога. На первом этапе мы используем сходство текста и изображения и сходство предложений, чтобы определить, какие высказывания можно заменить изображением. На втором этапе мы заменяем эти высказывания, выбирая подмножество соответствующих изображений и фильтруя их с помощью модели для ответа на визуальные вопросы (visual question answering). Мы использовали этот подход вместе с дополнительной разметкой для создания набора данных мультимодального диалога IMage Augmented (IMAD), который может служить проверенным набором данных для этой задачи. Кроме того, мы предлагаем базовую модель, обученную на этом наборе данных, которая превосходит модель, обученную на тех же данных без изображений, и BlenderBot. Библ. – 70 назв.
Ключевые слова: обработка естественных языков, глубокое обучение, машинное обучение, IMAD, диалоговый набор данных, мультимодальный набор данных, диалоговые системы, мультимодальность.
Поступило: 06.09.2023
Англоязычная версия:
Journal of Mathematical Sciences (New York), 2024, Volume 285, Issue 1, Pages 72–87
DOI: https://doi.org/10.1007/s10958-024-07434-0
Тип публикации: Статья
УДК: 81.322.2
Язык публикации: английский
Образец цитирования: V. Moskvoretskii, A. Frolov, D. Kuznetsov, “IMAD: IMage-Augmented multi-modal dialogue”, Исследования по прикладной математике и информатике. II–1, Зап. научн. сем. ПОМИ, 529, ПОМИ, СПб., 2023, 102–122; J. Math. Sci. (N. Y.), 285:1 (2024), 72–87
Цитирование в формате AMSBIB
\RBibitem{MosFroKuz23}
\by V.~Moskvoretskii, A.~Frolov, D.~Kuznetsov
\paper IMAD: IMage-Augmented multi-modal dialogue
\inbook Исследования по прикладной математике и информатике.~II--1
\serial Зап. научн. сем. ПОМИ
\yr 2023
\vol 529
\pages 102--122
\publ ПОМИ
\publaddr СПб.
\mathnet{http://mi.mathnet.ru/znsl7422}
\transl
\jour J. Math. Sci. (N. Y.)
\yr 2024
\vol 285
\issue 1
\pages 72--87
\crossref{https://doi.org/10.1007/s10958-024-07434-0}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/znsl7422
  • https://www.mathnet.ru/rus/znsl/v529/p102
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Записки научных семинаров ПОМИ
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025