RUS  ENG ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB
Общая информация
Последний выпуск
Архив
Правила для авторов
Загрузить рукопись

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Программные системы: теория и приложения:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Программные системы: теория и приложения, 2019, том 10, выпуск 4, страницы 181–199 (Mi ps358)  

Искусственный интеллект, интеллектуальные системы, нейронные сети

PaRuS — синтаксически аннотированный корпус русского языка

Н. А. Власова, И. В. Трофимов, Ю. П. Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский

Институт программных систем им. А. К. Айламазяна РАН

Аннотация: В статье представлен новый аннотированный корпус русского языка PaRuS (Parsed Russian Sentences). Корпус имеет объем свыше 2,5 миллиардов токенов и предназначен для решения задач компьютерной лингвистики методами машинного обучения. PaRuS состоит из предложений русского литературного языка. Каждое предложение снабжено лингвистической разметкой: морфологической в формате MULTEXT-East и синтаксической в нотации СинТагРус. В статье рассмотрена методология создания корпуса, описан гибридный лингвистический конвейер PaRuS_pipe, разработанный для порождения разметки. Обсуждаются вопросы качества аннотирования языкового материала в корпусе PaRuS, выполнена оценка морфологического анализатора конвейера PaRuS_pipe по методологии соревнования MorphoRuEval-2017.

Ключевые слова и фразы: компьютерная лингвистика, корпусная лингвистика, русский язык, языковой корпус, разметка, морфология, синтаксис.

Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 19-07-00779
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00779.


DOI: https://doi.org/10.25209/2079-3316-2019-10-4-181-199

Полный текст: PDF файл (1326 kB)

Тип публикации: Статья
УДК: 004.89:81'322.2
ББК: Ш111:З813
MSC: Primary 68T50; Secondary 91F20
Поступила в редакцию: 19.11.2019
Подписана в печать : 26.12.2019

Образец цитирования: Н. А. Власова, И. В. Трофимов, Ю. П. Сердюк, Е. А. Сулейманова, И. Н. Воздвиженский, “PaRuS — синтаксически аннотированный корпус русского языка”, Программные системы: теория и приложения, 10:4 (2019), 181–199

Цитирование в формате AMSBIB
\RBibitem{VlaTroSer19}
\by Н.~А.~Власова, И.~В.~Трофимов, Ю.~П.~Сердюк, Е.~А.~Сулейманова, И.~Н.~Воздвиженский
\paper PaRuS~--- синтаксически аннотированный корпус русского языка
\jour Программные системы: теория и приложения
\yr 2019
\vol 10
\issue 4
\pages 181--199
\mathnet{http://mi.mathnet.ru/ps358}
\crossref{https://doi.org/10.25209/2079-3316-2019-10-4-181-199}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/ps358
  • http://mi.mathnet.ru/rus/ps/v10/i4/p181

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles
  • Программные системы: теория и приложения
    Просмотров:
    Эта страница:10
    Полный текст:6
     
    Обратная связь:
     Пользовательское соглашение  Регистрация  Логотипы © Математический институт им. В. А. Стеклова РАН, 2020