Вычислительные методы и программирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Выч. мет. программирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Выч. мет. программирование, 2013, том 14, выпуск 1, страницы 91–102 (Mi vmp95)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Вычислительные методы и приложения

Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования

И. В. Машечкин, М. И. Петровский, Д. В. Царёв

Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики

Аннотация: Рассмотрены наиболее актуальные методы вычисления релевантности (значимости) фрагментов текста на основе анализа тематических моделей для последующего построения аннотаций в форме выдержек, т.е. аннотаций, полностью состоящих из последовательности фрагментов исходного текста. В качестве тематических моделей выбраны популярные модели семантики документов и коллекции документов, используемые в задачах анализа текстовой информации: модели, основанные на латентно-семантическом анализе, модель вероятностного латентно-семантического анализа и модель скрытого распределения Дирихле. Предложен новый метод вычисления релевантности фрагментов текста, основанный на оценке весов тематик в нормализованном пространстве тематик, получаемом с помощью факторизации неотрицательных матриц, которая используется в качестве матричного разложения в модели латентно-семантического анализа. Эксперименты, проведенные с использованием методов автоматического аннотирования на эталонных тестовых наборах DUC 2001 и DUC 2002 на основе стандартных метрик оценки качества аннотаций ROUGE, показали превосходство методов вычисления релевантности фрагментов текста, основанных на латентно-семантическом анализе, по сравнению с методами, основанными на вероятностных тематических моделях, по качеству получаемых аннотаций. Приведены результаты тестирования, показывающие, что предложенный метод вычисления релевантности фрагментов текста, использующий факторизацию неотрицательных матриц для тематического моделирования, дает лучшие результаты по сравнению со всеми рассмотренными методами. Работа выполнена в рамках государственного контракта № 14.514.11.4016 и при поддержке РФФИ (проекты 11-07-00616 и 12-07-00585).

Ключевые слова: релевантность фрагментов текста; автоматическое аннотирование; семантические модели текста; тематические модели; латентно-семантический анализ; сингулярное разложение; факторизация неотрицательных матриц; вероятностные тематические модели; вероятностный латентно-семантический анализ; скрытое распределение Дирихле.

Полный текст: PDF файл (239 kB)
Тип публикации: Статья
УДК: 004.85; 004.91
Поступила в редакцию: 24.10.2012

Образец цитирования: И. В. Машечкин, М. И. Петровский, Д. В. Царёв, “Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования”, Выч. мет. программирование, 14:1 (2013), 91–102

Цитирование в формате AMSBIB
\RBibitem{MasPetTsa13}
\by И.~В.~Машечкин, М.~И.~Петровский, Д.~В.~Царёв
\paper Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования
\jour Выч. мет. программирование
\yr 2013
\vol 14
\issue 1
\pages 91--102
\mathnet{http://mi.mathnet.ru/vmp95}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/vmp95
  • http://mi.mathnet.ru/rus/vmp/v14/i1/p91

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles

    Эта публикация цитируется в следующих статьяx:
    1. В. Ю. Королев, А. Ю. Корчагин, И. В. Машечкин, М. И. Петровский, Д. В. Царёв, “Применение временных рядов в задаче фоновой идентификации пользователей на основе анализа их работы с текстовыми данными”, Труды ИСП РАН, 27:1 (2015), 151–172  mathnet  crossref  elib
  • Вычислительные методы и программирование
    Просмотров:
    Эта страница:198
    Полный текст:117
     
    Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2021