Информатика и её применения
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информ. и её примен.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и её применения, 2018, том 12, выпуск 2, страницы 75–82
DOI: https://doi.org/10.14357/19922264180211
(Mi ia535)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Автоматическое извлечение метаданных из научных PDF-документов

А. В. Огальцовab, О. Ю. Бахтеевcb

a Высшая школа экономики
b ЗАО «Антиплагиат»
c Московский физико-технический институт
Список литературы:
Аннотация: Исследуется извлечение метаданных документа. Рассматриваются научные PDF-документы на русском языке. Особенностью формата PDF является разнообразие расположения текста на страницах документа. Это создает трудности для автоматического извлечения метаданных. Предложенный метод извлечения метаданных основан на рассмотрении текстовых блоков, полученных при помощи PDF-парсера, как объектов в задаче машинного обучения. Признаковое пространство содержит не только текстовые признаки, но и признаки, связанные с форматированием и расположением блока, которые получены из PDF-парсера. В работе измерено качество классификации предложенного алгоритма и проведено сравнение с базовым алгоритмом.
Ключевые слова: извлечение метаданных; обработка естественного языка; признаки форматирования; извлечение информации; метаописания.
Финансовая поддержка Номер гранта
Российский фонд фундаментальных исследований 18-07-01441_а
Работа выполнена при поддержке РФФИ (проект 18-07-01441).
Поступила в редакцию: 20.12.2017
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: А. В. Огальцов, О. Ю. Бахтеев, “Автоматическое извлечение метаданных из научных PDF-документов”, Информ. и её примен., 12:2 (2018), 75–82
Цитирование в формате AMSBIB
\RBibitem{OgaBak18}
\by А.~В.~Огальцов, О.~Ю.~Бахтеев
\paper Автоматическое извлечение метаданных из научных PDF-документов
\jour Информ. и её примен.
\yr 2018
\vol 12
\issue 2
\pages 75--82
\mathnet{http://mi.mathnet.ru/ia535}
\crossref{https://doi.org/10.14357/19922264180211}
\elib{https://elibrary.ru/item.asp?id=35161786}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/ia535
  • https://www.mathnet.ru/rus/ia/v12/i2/p75
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и её применения
    Статистика просмотров:
    Страница аннотации:435
    PDF полного текста:271
    Список литературы:32
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2024