|
Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации
Д. М. Шаход, О. Л. Ибряева Южно-Уральский государственный университет (454080 Челябинск, пр. им. В.И. Ленина, д. 76)
Аннотация:
В статье решается задача подавления акустического эха на основе нейронной сети оценивающей идеальную двоичную маску IBM из признаков, извлеченных из смеси сигналов ближнего и дальнего конца. Новизна предложенного метода заключается в использовании алгоритма кластеризации дополнительно с двунаправленной рекуррентной нейронной сетью BLSTM. Для оценки использования алгоритмов кластеризации EM, Mean-Shift, k-Means, модели были обучены и протестированы на базе данных TIMIT. Для каждой модели были вычислены метрики ERLE, PESQ, STOI, характеризующие ее качество. Использование алгоритмов кластеризации EM, Mean-Shift оказалось неэффективным по сравнению с алгоритмом BLSTM при соотношении сигнал/эхо 10 дБ. При соотношении сигнал/эхо 6 дБ BLSTM+Mean-Shift привел к незначительному улучшению метрики PESQ по сравнению с алгоритмом BLSTM. Результаты экспериментов показали эффективность предложенной модели BLSTM при использовании сети с алгоритмом K-Means, по сравнению с использованием чистой BLSTM для подавления эха в сценариях с двойным разговором. При соотношении сигнал/эхо 10 дБ метрика STOI, характеризующая разборчивость речи, улучшилась на 7%, а метрика PESQ, характеризующая качество восстановления речи, на 18.8%.
Ключевые слова:
идеальная двоичная маска, сигнал ближнего конца, сигнал дальнего конца, двунаправленная рекуррентная нейронная сеть, кластеризация, двойной разговор.
Поступила в редакцию: 01.04.2022
Образец цитирования:
Д. М. Шаход, О. Л. Ибряева, “Метод подавления акустического эха на основе рекуррентной нейронной сети и алгоритма кластеризации”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 11:2 (2022), 43–58
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vyurv277 https://www.mathnet.ru/rus/vyurv/v11/i2/p43
|
|