RUS  ENG ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Модел. и анализ информ. систем:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Модел. и анализ информ. систем, 2017, том 24, номер 6, страницы 772–787 (Mi mais600)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов

Н. С. Лагутина, К. В. Лагутина, И. А. Щитов, И. В. Парамонов

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия

Аннотация: Цель данной статьи — проанализировать, насколько эффективно могут применяться различные типы тезаурусных связей в задачах классификации текстов. Основой исследования является автоматически сгенерированный тезаурус предметной области, содержащий три типа связей: синонимические, иерархические и ассоциативные. Для генерации тезауруса используется гибридный метод, основанный на нескольких лингвистических и статистических алгоритмах выделения семантических связей и позволяющий создать тезаурус с достаточно большим числом терминов и связей между ними. Авторы рассматривают две задачи: тематическая классификация текстов и классификация больших новостных статей по тональности. Для решения каждой из них авторами были использованы два подхода, каждый из которых дополняет стандартные алгоритмы процедурой, применяющей связи тезауруса для определения семантических особенностей текстов. Подход к тематической классификации включает в себя стандартный алгоритм BM25 вида «обучение без учителя» и процедуру, использующую синонимические и иерархические связи тезауруса предметной области. Подход к классификации по тональности состоит из двух шагов. На первом шаге создается тезаурус, тональные веса терминов которого считаются в зависимости от частоты встречаемости в обучаемой выборке или от веса соседей по тезаурусу. На втором шаге тезаурус применяется для вычисления признаков слов из текстов и классификации текстов методом опорных векторов или наивным байесовским классификатором. В экспериментах с корпусами BBCSport, Reuters, PubMed и корпусом статей об американских иммигрантах авторы варьировали типы связей, которые участвуют в классификации, и степень их использования. Результаты экспериментов позволяют оценить эффективность применения тезаурусных связей для классификации текстов на естественном языке и определить, при каких условиях те или иные связи имеют бо́льшую значимость. В частности, наиболее полезными тезаурусными связями оказались синонимические и иерархические, так как они обеспечивает лучшее качество классификации.

Ключевые слова: тезаурус, семантические отношения, тезаурусные связи, тематическая классификация, классификация по тональности.

Финансовая поддержка Номер гранта
Министерство образования и науки Российской Федерации MK-5456.2016.9
Работа выполнена при финансовой поддержке гранта Президента Российской Федерации для государственной поддержки молодых российских ученых (государственный контракт № MK-5456.2016.9).


DOI: https://doi.org/10.18255/1818-1015-2017-6-772-787

Полный текст: PDF файл (558 kB)
Список литературы: PDF файл   HTML файл

Реферативные базы данных:

Тип публикации: Статья
УДК: 004.912
Поступила в редакцию: 16.10.2017

Образец цитирования: Н. С. Лагутина, К. В. Лагутина, И. А. Щитов, И. В. Парамонов, “Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов”, Модел. и анализ информ. систем, 24:6 (2017), 772–787

Цитирование в формате AMSBIB
\RBibitem{LagLagShc17}
\by Н.~С.~Лагутина, К.~В.~Лагутина, И.~А.~Щитов, И.~В.~Парамонов
\paper Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в~задачах классификации текстов
\jour Модел. и анализ информ. систем
\yr 2017
\vol 24
\issue 6
\pages 772--787
\mathnet{http://mi.mathnet.ru/mais600}
\crossref{https://doi.org/10.18255/1818-1015-2017-6-772-787}
\elib{http://elibrary.ru/item.asp?id=30730616}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/mais600
  • http://mi.mathnet.ru/rus/mais/v24/i6/p772

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles

    Эта публикация цитируется в следующих статьяx:
    1. И. В. Парамонов, Н. С. Лагутина, К. В. Лагутина, А. С. Адрианов, “Русскоязычные тезаурусы: автоматизированное построение и применение в задачах обработки текстов на естественном языке”, Модел. и анализ информ. систем, 25:4 (2018), 435–458  mathnet  crossref  elib
  • Моделирование и анализ информационных систем
    Просмотров:
    Эта страница:86
    Полный текст:30
    Литература:12
     
    Обратная связь:
     Пользовательское соглашение  Регистрация  Логотипы © Математический институт им. В. А. Стеклова РАН, 2019