Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика»
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Вестн. ЮУрГУ. Сер. Выч. матем. информ.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика», 2022, том 11, выпуск 2, страницы 43–58
DOI: https://doi.org/10.14529/cmse220204
(Mi vyurv277)
 

Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации

Д. М. Шаход, О. Л. Ибряева

Южно-Уральский государственный университет (454080 Челябинск, пр. им. В.И. Ленина, д. 76)
Аннотация: В статье решается задача подавления акустического эха на основе нейронной сети оценивающей идеальную двоичную маску IBM из признаков, извлеченных из смеси сигналов ближнего и дальнего конца. Новизна предложенного метода заключается в использовании алгоритма кластеризации дополнительно с двунаправленной рекуррентной нейронной сетью BLSTM. Для оценки использования алгоритмов кластеризации EM, Mean-Shift, k-Means, модели были обучены и протестированы на базе данных TIMIT. Для каждой модели были вычислены метрики ERLE, PESQ, STOI, характеризующие ее качество. Использование алгоритмов кластеризации EM, Mean-Shift оказалось неэффективным по сравнению с алгоритмом BLSTM при соотношении сигнал/эхо 10 дБ. При соотношении сигнал/эхо 6 дБ BLSTM+Mean-Shift привел к незначительному улучшению метрики PESQ по сравнению с алгоритмом BLSTM. Результаты экспериментов показали эффективность предложенной модели BLSTM при использовании сети с алгоритмом K-Means, по сравнению с использованием чистой BLSTM для подавления эха в сценариях с двойным разговором. При соотношении сигнал/эхо 10 дБ метрика STOI, характеризующая разборчивость речи, улучшилась на 7%, а метрика PESQ, характеризующая качество восстановления речи, на 18.8%.
Ключевые слова: идеальная двоичная маска, сигнал ближнего конца, сигнал дальнего конца, двунаправленная рекуррентная нейронная сеть, кластеризация, двойной разговор.
Поступила в редакцию: 01.04.2022
Тип публикации: Статья
УДК: 004.032.26, 004.048
Образец цитирования: Д. М. Шаход, О. Л. Ибряева, “Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 11:2 (2022), 43–58
Цитирование в формате AMSBIB
\RBibitem{ShaIbr22}
\by Д.~М.~Шаход, О.~Л.~Ибряева
\paper Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации
\jour Вестн. ЮУрГУ. Сер. Выч. матем. информ.
\yr 2022
\vol 11
\issue 2
\pages 43--58
\mathnet{http://mi.mathnet.ru/vyurv277}
\crossref{https://doi.org/10.14529/cmse220204}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vyurv277
  • https://www.mathnet.ru/rus/vyurv/v11/i2/p43
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика»
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025