Вычислительные методы и программирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Выч. мет. программирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Выч. мет. программирование, 2015, том 16, выпуск 2, страницы 215–234 (Mi vmp534)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами

М. А. Нокельa, Н. В. Лукашевичb

a Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики
b Научно-исследовательский вычислительный центр Московского государственного университета имени М. В. Ломоносова

Аннотация: Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являющийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сходство между ними и униграммными компонентами. Исследована возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. В качестве текстовых коллекций взяты русскоязычная подборка статей из электронных банковских журналов, английские части корпусов параллельных текстов Europarl и JRC-Acquiz и англоязычный архив исследовательских работ по компьютерной лингвистике ACL Anthology. Выполненные эксперименты показывают, что существует подгруппа тестируемых мер, упорядочивающих биграммы таким образом, что при последующем их добавлении в предложенный алгоритм PLSA-SIM качество получающихся тематических моделей значительно повышается. Предложен новый итеративный алгоритм PLSA-ITER без учителя, позволяющий добавлять наиболее подходящие биграммы. Эксперименты показывают дальнейшее улучшение качества тематических моделей по сравнению с исходным алгоритмом PLSA.

Ключевые слова: тематические модели, ассоциативные меры, биграммы, согласованность тем, перплексия.

Полный текст: PDF файл (331 kB)
УДК: 004.852
Поступила в редакцию: 12.03.2015

Образец цитирования: М. А. Нокель, Н. В. Лукашевич, “Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами”, Выч. мет. программирование, 16:2 (2015), 215–234

Цитирование в формате AMSBIB
\RBibitem{NokLuk15}
\by М.~А.~Нокель, Н.~В.~Лукашевич
\paper Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами
\jour Выч. мет. программирование
\yr 2015
\vol 16
\issue 2
\pages 215--234
\mathnet{http://mi.mathnet.ru/vmp534}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/vmp534
  • http://mi.mathnet.ru/rus/vmp/v16/i2/p215

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles

    Эта публикация цитируется в следующих статьяx:
    1. И. С. Павловский, П. П. Пархоменко, “Показатели, модели и методы анализа и оценки структур понятийно связных текстов”, Автомат. и телемех., 2018, № 9, 106–121  mathnet; I. S. Pavlovskii, P. P. Parkhomenko, “Indicators, models and methods for analysis and estimation of structures of conceptually connected texts”, Autom. Remote Control, 79:9 (2018), 1630–1642  crossref  isi  elib
  • Вычислительные методы и программирование
    Просмотров:
    Эта страница:114
    Полный текст:77
     
    Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2021