|
Математика
Methods of speech and text databases development for QA-systems
[Методы создания речевых и текстовых баз данных вопросно-ответных систем]
A. L. Ronzhin, A. A. Zaytseva, S. V. Kuleshov, K. V. Nenausnikov Saint-Petersburg Institute for Informatics and Automation of Russian Academy of Science,
Saint-Petersburg, Russian Federation
Аннотация:
Работа посвящена проблемам построения речевых вопросно-ответных систем (QA-систем). Предметом исследования являются подходы к автоматическому наполнению базы данных вопросно-ответной системы путем анализа неструктурированных текстовых источников, имеющихся в настоящий момент времени в открытом доступе в сети Интернет.
В результате анализа выявлено, что выделяют следующие способы реализации QA-систем: на основе логического вывода по онтологиям, правилам и на основе синтаксиса, с использованием искусственных нейронных сетей.
В исследовании разработаны и протестированы методы автоматического выделения вопросно-ответных пар на основе структуры предложений и на основе ассоциативно-онтологического анализа.
Метод на основе анализа структуры предложений эффективен для текстов типа списков часто задаваемых вопросов (FAQ), а также художественных текстов, содержащих диалоги, прямую речь, основан на предварительной обработке текста, выраженный в виде эвристического правила.
Метод на основе ассоциативно-онтологического анализа ориентирован на класс справочных и словарных текстов и основан на предположении о том, что в тексте описательного характера имеется предложение (или группа предложений), содержащее основную мысль текста. В этом случае заголовок текста может считаться вопросом, а это предложение (или группа предложений) — ответом. Для автоматизации выделения смыслообразующих предложений за счет семантической редукции текста применяются алгоритмы реферирования на основе ассоциативно-онтологического подхода к обработке текстов на естественном языке.
Для экспериментальной проверки возможности создания открытой вопросно-ответной системы на базе автоматического сбора вопросно-ответных пар из сети Интернет был разработан прототип модуля сбора базы данных вопросно-ответной системы.
Ключевые слова:
вопросно-ответная пара, ассоциативно-онтологический подход, текст на естественном языке, автоматическая обработка текста, распознавание речи.
Поступила в редакцию: 16.05.2018
Образец цитирования:
A. L. Ronzhin, A. A. Zaytseva, S. V. Kuleshov, K. V. Nenausnikov, “Methods of speech and text databases development for QA-systems”, Вестн. Южно-Ур. ун-та. Сер. Матем. Мех. Физ., 10:3 (2018), 59–66
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vyurm384 https://www.mathnet.ru/rus/vyurm/v10/i3/p59
|
Статистика просмотров: |
Страница аннотации: | 167 | PDF полного текста: | 122 | Список литературы: | 36 |
|