Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2022, том 34, выпуск 4, страницы 187–200
DOI: https://doi.org/10.15514/ISPRAS-2022-34(4)-13
(Mi tisp713)
 

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Методы и подходы к автоматическому связыванию сущностей на русском языке

А. А. Мезенцеваab, Е. П. Бручесab, Т. В. Батураa

a Институт систем информатики им. А. П. Ершова СО РАН
b Новосибирский государственный университет
Аннотация: На сегодняшний день большое внимание уделяется решению задач обработки текстов с использованием информации об окружающем нас мире, например, в информационном поиске, построении вопросно-ответных и диалоговых систем. Поэтому важно установить соответствие между сущностями в обрабатываемом тексте и базой знаний. Данная статья посвящена автоматическому связыванию сущностей с Вики-данными. В качестве сущностей рассматриваются научные термины на русском языке. Традиционно система связывания сущностей состоит из трёх этапов: распознавание сущностей, генерация кандидатов и ранжирование кандидатов. Наша система принимает на вход текст, в котором уже выделены термины. Для генерации кандидатов мы используем построковое совпадение терминов и сущностей в базе знаний. Этап ранжирования кандидатов является наиболее сложным, так как требует использования семантической информации. Проведены эксперименты с различными подходами к решению этой задачей: с использованием косинусной близости, классическими методами машинного обучения и нейронными сетями. Также мы расширили корпус RUSERRC, добавив вручную размеченные данные для обучения моделей. Полученные результаты показали, что использование метода, основанного на косинусной близости, позволяет получить не только более высокие результаты, по сравнению с другими подходами, но и решать эту задачу без вручную размеченных данных. Набор данных и код находятся в открытом доступе и доступны для других исследователей.
Ключевые слова: связывание сущностей, база знаний, научные термины
Тип публикации: Статья
Образец цитирования: А. А. Мезенцева, Е. П. Бручес, Т. В. Батура, “Методы и подходы к автоматическому связыванию сущностей на русском языке”, Труды ИСП РАН, 34:4 (2022), 187–200
Цитирование в формате AMSBIB
\RBibitem{MezBruBat22}
\by А.~А.~Мезенцева, Е.~П.~Бручес, Т.~В.~Батура
\paper Методы и подходы к автоматическому связыванию сущностей на русском языке
\jour Труды ИСП РАН
\yr 2022
\vol 34
\issue 4
\pages 187--200
\mathnet{http://mi.mathnet.ru/tisp713}
\crossref{https://doi.org/10.15514/ISPRAS-2022-34(4)-13}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp713
  • https://www.mathnet.ru/rus/tisp/v34/i4/p187
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025