V. Moskvoretskii, A. Frolov, D. Kuznetsov, “IMAD: IMage-Augmented multi-modal dialogue”, Исследования по прикладной математике и информатике. II–1, Зап. научн. сем. ПОМИ, 529, ПОМИ, СПб., 2023, 102–122; J. Math. Sci. (N. Y.), 285:1 (2024), 72

Записки научных семинаров ПОМИ

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив
	Импакт-фактор

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Зап. научн. сем. ПОМИ:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Записки научных семинаров ПОМИ, 2023, том 529, страницы 102–122 (Mi znsl7422)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

IMAD: IMage-Augmented multi-modal dialogue

[IMAD: мультимодальный диалог, дополненный изображениями]

V. Moskvoretskii, A. Frolov, D. Kuznetsov

DeepPavlov.ai

PDF полного текста (1102 kB) Список цитирования (1)

Список литературы:

PDF

HTML

Аннотация: В настоящее время диалоговые системы достигли отличных результатов при обработке текстовой коммуникации. Однако они еще не могут эффективно дополнять диалог визуальной информацией, что представляет собой серьезную проблему. Более того, существующие модели, включающие изображения в процесс создания диалога, фокусируются на обсуждении самого изображения. Предлагаемый нами подход представляет новый взгляд на мультимодальные диалоговые системы, которые интерпретируют изображение в контексте диалога. Тем самым мы стремимся расширить возможности существующих диалоговых систем и перевести их из одной модальности (текста) в область мультимодальности. Однако для этой задачи не хватает проверенных наборов данных на английском языке, содержащих как изображения, так и контексты диалогов. Таким образом, мы предлагаем двухэтапный подход для автоматического построения набора данных мультимодального диалога. На первом этапе мы используем сходство текста и изображения и сходство предложений, чтобы определить, какие высказывания можно заменить изображением. На втором этапе мы заменяем эти высказывания, выбирая подмножество соответствующих изображений и фильтруя их с помощью модели для ответа на визуальные вопросы (visual question answering). Мы использовали этот подход вместе с дополнительной разметкой для создания набора данных мультимодального диалога IMage Augmented (IMAD), который может служить проверенным набором данных для этой задачи. Кроме того, мы предлагаем базовую модель, обученную на этом наборе данных, которая превосходит модель, обученную на тех же данных без изображений, и BlenderBot. Библ. – 70 назв.

Ключевые слова: обработка естественных языков, глубокое обучение, машинное обучение, IMAD, диалоговый набор данных, мультимодальный набор данных, диалоговые системы, мультимодальность.

Поступило: 06.09.2023

Англоязычная версия:
Journal of Mathematical Sciences (New York), 2024, Volume 285, Issue 1, Pages 72–87
DOI: https://doi.org/10.1007/s10958-024-07434-0

Тип публикации: Статья

УДК: 81.322.2

Язык публикации: английский

Образец цитирования: V. Moskvoretskii, A. Frolov, D. Kuznetsov, “IMAD: IMage-Augmented multi-modal dialogue”, Исследования по прикладной математике и информатике. II–1, Зап. научн. сем. ПОМИ, 529, ПОМИ, СПб., 2023, 102–122; J. Math. Sci. (N. Y.), 285:1 (2024), 72–87

Цитирование в формате AMSBIB

\RBibitem{MosFroKuz23}

\by V.~Moskvoretskii, A.~Frolov, D.~Kuznetsov

\paper IMAD: IMage-Augmented multi-modal dialogue

\inbook Исследования по прикладной математике и информатике.~II--1

\serial Зап. научн. сем. ПОМИ

\yr 2023

\vol 529

\pages 102--122

\publ ПОМИ

\publaddr СПб.

\mathnet{http://mi.mathnet.ru/znsl7422}

\transl

\jour J. Math. Sci. (N. Y.)

\yr 2024

\vol 285

\issue 1

\pages 72--87

\crossref{https://doi.org/10.1007/s10958-024-07434-0}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/znsl7422

https://www.mathnet.ru/rus/znsl/v529/p102

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы