|
Ученые записки Казанского государственного университета. Серия Физико-математические науки, 2008, том 150, книга 4, страницы 25–40
(Mi uzku698)
|
|
|
|
Эта публикация цитируется в 6 научных статьях (всего в 6 статьях)
Автоматическая рубрикация текстов: методы и проблемы
М. С. Агеев, Б. В. Добров, Н. В. Лукашевич Научно-исследовательский вычислительный центр Московского государственного университета им. М. В. Ломоносова
Аннотация:
Статья посвящена рассмотрению трех основных технологий рубрикации текстов (ручного рубрицирования, рубрицирования на базе знаний, рубрицирования на базе машинного обучения), описываются их преимущества и возникающие проблемы. Рассматриваются два метода автоматической рубрикации текстов, направленные на преодоление недостатков существующих методов, приводятся данные о результатах их оценки на общедоступных коллекциях. Первым методом является метод, основанный на большом лингвистическом ресурсе – тезаурусе РуТез и комплексе автоматической обработки текстов АЛОТ. Второй метод представляет собой метод машинного обучения, порождающий описания рубрик в виде булевских формул.
Ключевые слова:
обработка документов, автоматическая рубрикация, тезаурус, машинное обучение.
Поступила в редакцию: 26.02.2008
Образец цитирования:
М. С. Агеев, Б. В. Добров, Н. В. Лукашевич, “Автоматическая рубрикация текстов: методы и проблемы”, Учён. зап. Казан. гос. ун-та. Сер. Физ.-матем. науки, 150, № 4, Изд-во Казанского ун-та, Казань, 2008, 25–40
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/uzku698 https://www.mathnet.ru/rus/uzku/v150/i4/p25
|
Статистика просмотров: |
Страница аннотации: | 1244 | PDF полного текста: | 485 | Список литературы: | 72 |
|