Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2025, выпуск 24, том 1, страницы 275–301
DOI: https://doi.org/10.15622/ia.24.1.10
(Mi trspy1356)
 

Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)

Искусственный интеллект, инженерия данных и знаний

Автоматическая генерация аннотаций научных статей на основе больших языковых моделей

А. Н. Голубинскийa, А. А. Толстыхb, М. Ю. Толстыхcd

a Институт проблем передачи информации им. А.А. Харкевича Российской академии наук
b ООО «РТК»
c Московский государственный лингвистический университет
d Московский университет МВД России им. В.Я. Кикотя
Аннотация: Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей.
Ключевые слова: аннотация, генерация, большие языковые модели, цифровизация, машинное обучение.
Поступила в редакцию: 16.07.2024
Тип публикации: Статья
УДК: 004.032.26
Образец цитирования: А. Н. Голубинский, А. А. Толстых, М. Ю. Толстых, “Автоматическая генерация аннотаций научных статей на основе больших языковых моделей”, Информатика и автоматизация, 24:1 (2025), 275–301
Цитирование в формате AMSBIB
\RBibitem{GolTolTol25}
\by А.~Н.~Голубинский, А.~А.~Толстых, М.~Ю.~Толстых
\paper Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
\jour Информатика и автоматизация
\yr 2025
\vol 24
\issue 1
\pages 275--301
\mathnet{http://mi.mathnet.ru/trspy1356}
\crossref{https://doi.org/10.15622/ia.24.1.10}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1356
  • https://www.mathnet.ru/rus/trspy/v24/i1/p275
  • Эта публикация цитируется в следующих 2 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025