|
Эта публикация цитируется в 2 научных статьях (всего в 2 статьях)
Искусственный интеллект, инженерия данных и знаний
Автоматическая генерация аннотаций научных статей на основе больших языковых моделей
А. Н. Голубинскийa, А. А. Толстыхb, М. Ю. Толстыхcd a Институт проблем передачи информации им. А.А. Харкевича Российской академии наук
b ООО «РТК»
c Московский государственный лингвистический университет
d Московский университет МВД России им. В.Я. Кикотя
Аннотация:
Предложена концепция автоматизации процесса аннотирования научных материалов (русскоязычных научных статей) и выполнена ее практическая реализация посредством технологий машинного обучения, дообучения больших языковых моделей. Обозначена актуальность корректного и рационального составления аннотаций, выделена проблематика, касающаяся установления баланса между затратами времени на аннотирование и обеспечением соблюдения ключевых требований к аннотации. Проанализированы основы аннотирования, представленные в семействе стандартов по информации, библиотечному и издательскому делу, приведены классификация аннотаций и требования к их наполнению и функционалу. Схемографически представлено существо и содержание процесса аннотирования, типовая структура объекта исследования. Проанализирован вопрос интеграции в процесс аннотирования цифровых технологий, особое внимание уделено преимуществам внедрения машинного обучения и технологий искусственного интеллекта. Кратко описан цифровой инструментарий, применяемый для генерации текста в приложениях обработки естественного языка. Отмечены его недостатки для решения поставленной в данной научной статье задачи. В исследовательской части обоснован выбор модели машинного обучения, применяемый для решения задачи условной генерации текста. Проанализированы существующие предобученные большие языковые модели и с учетом постановки задачи и имеющихся ограничений вычислительных ресурсов выбрана модель ruT5-base. Приведено описание датасета, включающего научные статьи из журналов, включенных в перечень рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученых степеней кандидата и доктора наук. Охарактеризована методика разметки данных, основанная на работе токинезатора предобученной большой языковой модели, графически и таблично приведены численные характеристики распределений датасета и параметры конвейера обучения. Для оценки модели использована метрика качества ROUGE, для оценки результатов – метод экспертных оценок, включающий грамматику и логику в качестве базовых критериев. Качество автоматической генерации аннотаций сопоставимо с реальными текстами, отвечает требованиям информативности, структурированности и компактности. Статья может представлять интерес для аудитории ученых и исследователей, стремящихся оптимизировать свою научную деятельность в части интеграции в процесс написания статей инструментов цифровизации, а также специалистам, занимающимся обучением больших языковых моделей.
Ключевые слова:
аннотация, генерация, большие языковые модели, цифровизация, машинное обучение.
Поступила в редакцию: 16.07.2024
Образец цитирования:
А. Н. Голубинский, А. А. Толстых, М. Ю. Толстых, “Автоматическая генерация аннотаций научных статей на основе больших языковых моделей”, Информатика и автоматизация, 24:1 (2025), 275–301
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1356 https://www.mathnet.ru/rus/trspy/v24/i1/p275
|
|