|
Вычислительные методы и программирование, 2015, том 16, выпуск 2, страницы 215–234
(Mi vmp534)
|
|
|
|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами
М. А. Нокельa, Н. В. Лукашевичb a Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики
b Научно-исследовательский вычислительный центр Московского государственного университета имени М. В. Ломоносова
Аннотация:
Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являющийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сходство между ними и униграммными компонентами. Исследована возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. В качестве текстовых коллекций взяты русскоязычная подборка статей из электронных банковских журналов, английские части корпусов параллельных текстов Europarl и JRC-Acquiz и англоязычный архив исследовательских работ по компьютерной лингвистике ACL Anthology. Выполненные эксперименты показывают, что существует подгруппа тестируемых мер, упорядочивающих биграммы таким образом, что при последующем их добавлении в предложенный алгоритм PLSA-SIM качество получающихся тематических моделей значительно повышается. Предложен новый итеративный алгоритм PLSA-ITER без учителя, позволяющий добавлять наиболее подходящие биграммы. Эксперименты показывают дальнейшее улучшение качества тематических моделей по сравнению с исходным алгоритмом PLSA.
Ключевые слова:
тематические модели, ассоциативные меры, биграммы, согласованность тем, перплексия.
Поступила в редакцию: 12.03.2015
Образец цитирования:
М. А. Нокель, Н. В. Лукашевич, “Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами”, Выч. мет. программирование, 16:2 (2015), 215–234
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/vmp534 https://www.mathnet.ru/rus/vmp/v16/i2/p215
|
Статистика просмотров: |
Страница аннотации: | 211 | PDF полного текста: | 166 |
|