|
Анализ текстовой и графической информации
Автоматическая классификация русскоязычных Интернет-текстов по жанрам
К. В. Лагутинаa, Е. И. Бойчукb, Н. С. Лагутинаa a Ярославский государственный университет им. П. Г. Демидова, Ярославль, Россия
b Ярославский государственный педагогический университет им. К. Д. Ушинского, Ярославль, Россия
Аннотация:
Статья посвящена применению современных языковых моделей на основе BERT и трех типов лингвистических характеристик текста для автоматического определения жанра, а также сравнительному анализу данных моделей с точки зрения компьютерной и классической лингвистики. Собран корпус из русскоязычных Интернет-текстов восьми жанров: посты ВКонтакте, комментарии, статьи с портала Хабр, описания компаний, новости, научные статьи, реклама, отзывы на фильмы с сайта Кинопоиск. Каждый текст представлен в виде вектора числовых характеристик с помощью каждой из выбранных моделей: пяти вариаций BERT и лингвистических характеристик уровней символов, структуры и ритма.
Ключевые слова:
стилометрия, обработка естественного языка, ритмические характеристики, жанры, классификация текстов, BERT.
Образец цитирования:
К. В. Лагутина, Е. И. Бойчук, Н. С. Лагутина, “Автоматическая классификация русскоязычных Интернет-текстов по жанрам”, Искусственный интеллект и принятие решений, 2023, № 4, 103–114
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/iipr52 https://www.mathnet.ru/rus/iipr/y2023/i4/p103
|
|