Компьютерная оптика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерная оптика:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерная оптика, 2022, том 46, выпуск 6, страницы 955–962
DOI: https://doi.org/10.18287/2412-6179-CO-1092
(Mi co1091)
 

ОБРАБОТКА ИЗОБРАЖЕНИЙ, РАСПОЗНАВАНИЕ ОБРАЗОВ

Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством

А. А. Аксёнов, Д. А. Рюмин, А. М. Кашевник, Д. В. Иванько, А. А. Карпов

Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук»
Аннотация: В работе предложен метод визуального анализа и чтения речи по губам водителя при управлении транспортным средством. Автоматическое распознавание речи в акустически неблагоприятных динамических условиях является одной из актуальных задач искусственного интеллекта. Проблема эффективного автоматического чтения по губам во время дорожного движения на данный момент не решена из-за наличия различного рода помех (частые повороты головы, вибрация, динамическое освещение и т.п.). Кроме того, проблема усложняется отсутствием представительных баз данных визуальной речи. Для поиска и из-влечения области интереса используется программная библиотека MediaPipe Face Mesh. Для анализа визуальной речи разработана интегральная нейросетевая архитектура (End-to-End). Визуальные признаки извлекаются из отдельного изображения с помощью свёрточной нейронной сети в связке с полносвязным слоем. Извлеченные нейросетевые признаки изображений являются входными данными для нейросети с длинной кратковременной памятью. В связи с небольшим объемом обучающих данных было предложено применять метод переноса обучения. Результаты по анализу и распознаванию визуальной речи водителя в процессе управления автомобилем представляют большие возможности для решения актуальной задачи автоматического чтения по губам. Экспериментальные исследования выполнены на собственном аудиовизуальном корпусе русской речи RUSAVIC, собранном в реальных условиях дорожного движения. Максимальная точность визуального распознавания 62 голосовых управляющих команд водителей составила 64,09%. Полученные результаты могут быть использованы в системах аудиовизуального распознавания речи, применяемых в акустически сложной обстановке дорожного движения (высокая скорость движения, открытые окна или люк в автомобиле, одновременное проигрывание музыки, слабая шумоизоляция и т.п.)
Ключевые слова: транспортное средство, водитель, визуальное распознавание речи, автоматическое чтение по губам, машинное обучение, End-to-End, CNN, LSTM
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 19-29-09081-мк
Министерство науки и высшего образования Российской Федерации FFZF-2022-0005
Совет по грантам Президента РФ НШ-17.2022.1.6
Работа выполнена при поддержке проекта фонда РФФИ № 19-29-09081-мк, ведущей научной школы НШ-17.2022.1.6, а также частично в рамках бюджетной темы № FFZF-2022-0005.
Поступила в редакцию: 25.12.2021
Принята в печать: 30.04.2022
Тип публикации: Статья
Образец цитирования: А. А. Аксёнов, Д. А. Рюмин, А. М. Кашевник, Д. В. Иванько, А. А. Карпов, “Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством”, Компьютерная оптика, 46:6 (2022), 955–962
Цитирование в формате AMSBIB
\RBibitem{AxyRyuKas22}
\by А.~А.~Аксёнов, Д.~А.~Рюмин, А.~М.~Кашевник, Д.~В.~Иванько, А.~А.~Карпов
\paper Метод визуального анализа лица водителя для автоматического чтения речи по губам при управлении транспортным средством
\jour Компьютерная оптика
\yr 2022
\vol 46
\issue 6
\pages 955--962
\mathnet{http://mi.mathnet.ru/co1091}
\crossref{https://doi.org/10.18287/2412-6179-CO-1092}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/co1091
  • https://www.mathnet.ru/rus/co/v46/i6/p955
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Компьютерная оптика
    Статистика просмотров:
    Страница аннотации:48
    PDF полного текста:40
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025