Вычислительные методы и программирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Выч. мет. программирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Вычислительные методы и программирование, 2015, том 16, выпуск 2, страницы 215–234 (Mi vmp534)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами

М. А. Нокельa, Н. В. Лукашевичb

a Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики
b Научно-исследовательский вычислительный центр Московского государственного университета имени М. В. Ломоносова
Аннотация: Представлены результаты экспериментов по добавлению биграмм в тематические модели и учету сходства между ними и униграммами. Предложен новый алгоритм PLSA-SIM, являющийся модификацией алгоритма построения тематических моделей PLSA (Probabilistic Latent Semantic Analysis). Предложенный алгоритм позволяет добавлять биграммы и учитывать сходство между ними и униграммными компонентами. Исследована возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. В качестве текстовых коллекций взяты русскоязычная подборка статей из электронных банковских журналов, английские части корпусов параллельных текстов Europarl и JRC-Acquiz и англоязычный архив исследовательских работ по компьютерной лингвистике ACL Anthology. Выполненные эксперименты показывают, что существует подгруппа тестируемых мер, упорядочивающих биграммы таким образом, что при последующем их добавлении в предложенный алгоритм PLSA-SIM качество получающихся тематических моделей значительно повышается. Предложен новый итеративный алгоритм PLSA-ITER без учителя, позволяющий добавлять наиболее подходящие биграммы. Эксперименты показывают дальнейшее улучшение качества тематических моделей по сравнению с исходным алгоритмом PLSA.
Ключевые слова: тематические модели, ассоциативные меры, биграммы, согласованность тем, перплексия.
Поступила в редакцию: 12.03.2015
УДК: 004.852
Образец цитирования: М. А. Нокель, Н. В. Лукашевич, “Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами”, Выч. мет. программирование, 16:2 (2015), 215–234
Цитирование в формате AMSBIB
\RBibitem{NokLuk15}
\by М.~А.~Нокель, Н.~В.~Лукашевич
\paper Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами
\jour Выч. мет. программирование
\yr 2015
\vol 16
\issue 2
\pages 215--234
\mathnet{http://mi.mathnet.ru/vmp534}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/vmp534
  • https://www.mathnet.ru/rus/vmp/v16/i2/p215
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Вычислительные методы и программирование
    Статистика просмотров:
    Страница аннотации:209
    PDF полного текста:163
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024