Вычислительные методы и программирование
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Выч. мет. программирование:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Выч. мет. программирование, 2007, том 8, выпуск 3, страницы 57–69 (Mi vmp509)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Программирование

Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов

М. И. Петровский, В. В. Глазкова

Московский государственный университет имени М. В. Ломоносова, факультет вычислительной математики и кибернетики

Аннотация: Методы машинного обучения и интеллектуального анализа данных предназначены для решения задач анализа, классификации и выявления скрытых закономерностей в больших объемах разнородных сложно структурированных данных. К таким задачам относится прикладная задача анализа и рубрикации больших коллекций электронных текстовых и гипертекстовых документов. Для ее решения необходима разработка эффективных по точности и скорости алгоритмов для многотемной классификации (multi-label classification), т.е. классификации в условиях существенно перекрывающихся классов, когда любой объект классификации (документ) может принадлежать более чем одному классу (теме) одновременно, а также разработка формальных моделей представления гипертекстовых данных, эффективных по точности представления исходной информации и занимаемой при этом памяти. В настоящей статье предлагается новая модель представления данных, основанная на выделении частых эпизодов лексем (или N-грамм), и новый метод учeта гиперссылок, основанный на классификации с помощью N-граммного классификатора текста адресов гиперссылок и замене их в исходном тексте документа на специальные признаки. Кроме того, исследуется возможность использования подхода на основе декомпозиции “каждый против каждого” для решения задачи многотемной классификации. Предлагается новый метод многотемной классификации, основанный на подходе попарных сравнений с помощью набора бинарных классификаторов, где результирующие вероятности принадлежности документа темам (релевантности классов) вычисляются с помощью обобщенной модели Брэдли-Терри, а нерелевантные классы отсекаются с помощью пороговой функции, заданной в пространстве релевантностей классов. Все разработанные алгоритмы экспериментально проверены на эталонных тестовых наборах данных и показали лучшие результаты по сравнению с традиционными методами. Работа поддержана грантом РФФИ N 06-01-00691, грантом поддержки научных школ N 02.445.11.7427 и грантом Президента РФ МК-4264.2007.9.

Ключевые слова: рубрикация текстовых и гипертекстовых документов; модели представления гипертекстовой информации; алгоритмы многотемной (multi-label) классификации; метод попарных сравнений.

Полный текст: PDF файл (249 kB)
УДК: 004.85; 004.89

Образец цитирования: М. И. Петровский, В. В. Глазкова, “Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов”, Выч. мет. программирование, 8:3 (2007), 57–69

Цитирование в формате AMSBIB
\RBibitem{PetGla07}
\by М.~И.~Петровский, В.~В.~Глазкова
\paper Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов
\jour Выч. мет. программирование
\yr 2007
\vol 8
\issue 3
\pages 57--69
\mathnet{http://mi.mathnet.ru/vmp509}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/vmp509
  • http://mi.mathnet.ru/rus/vmp/v8/i3/p57

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles

    Эта публикация цитируется в следующих статьяx:
    1. И. М. Адамович, О. И. Волков, Н. А. Маркова, “Метод классификации информации на основе иерархических тегов и его реализация на примере семейного архивного фонда”, Системы и средства информ., 22:2 (2012), 146–156  mathnet
  • Вычислительные методы и программирование
    Просмотров:
    Эта страница:91
    Полный текст:36
     
    Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2021