Известия Кабардино-Балкарского научного центра РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Известия Кабардино-Балкарского научного центра РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Известия Кабардино-Балкарского научного центра РАН, 2024, том 26, выпуск 4, страницы 54–61
DOI: https://doi.org/10.35330/1991-6639-2024-26-4-54-61
(Mi izkab892)
 

Информатика и информационные процессы

Метод оценки степени доверия к само-объяснениям GPT-моделей

А. Н. Лукьянов, А. М. Трамова

Российский экономический университет им. Г. В. Плеханова, 117997, Россия, Москва, Стремянный переулок, 36
Список литературы:
Аннотация: Со стремительным ростом использования генеративных нейросетевых моделей для решения практических задач все более остро встает проблема объяснения их решений. По мере ввода решений на основе нейросетей в медицинскую практику, государственное управление и сферу обороны требования к таким системам в плане их интерпретируемости однозначно будут расти. В данной работе предложен метод проверки достоверности само-объяснений, которые модели дают постфактум, посредством сравнения распределения внимания модели во время генерации ответа и его объяснения. Авторами предложены и разработаны методы для численной оценки степени достоверности ответов генеративных предобученных трансформеров. Предлагается использовать расхождение Кульбака – Лейблера над распределениями внимания модели во время выдачи ответа и следующего за этим объяснения. Также предлагается вычислять отношение внимания модели между изначальным запросом и сгенерированным объяснением с целью понять, насколько само-объяснение было обусловлено собственным ответом. Для получения данных величин предлагается алгоритм для рекурсивного вычисления внимания модели по шагам генерации. В результате исследования была продемонстрирована работа предложенных методов, найдены значения метрик, соответствующие корректным и некорректным объяснениям и ответам. Был проведен анализ существующих в настоящий момент методов определения достоверности ответов генеративных моделей, причем подавляющее большинство из них сложно интерпретируемые обычным пользователем. В связи с этим мы выдвинули собственные методы, проверив их на наиболее широко используемых на момент написания генеративных моделях, находящихся в открытом доступе. В результате мы получили типичные значения для предложенных метрик, алгоритм их вычисления и визуализации.
Ключевые слова: нейронные сети, метрики, языковые модели, интерпретируемость, LLM, GPT, XAI
Поступила в редакцию: 24.06.2024
Исправленный вариант: 01.08.2024
Принята в печать: 07.08.2024
Реферативные базы данных:
Тип публикации: Статья
УДК: 004.054
MSC: 68T09
Образец цитирования: А. Н. Лукьянов, А. М. Трамова, “Метод оценки степени доверия к само-объяснениям GPT-моделей”, Известия Кабардино-Балкарского научного центра РАН, 26:4 (2024), 54–61
Цитирование в формате AMSBIB
\RBibitem{LukTra24}
\by А.~Н.~Лукьянов, А.~М.~Трамова
\paper Метод оценки степени доверия к само-объяснениям GPT-моделей
\jour Известия Кабардино-Балкарского научного центра РАН
\yr 2024
\vol 26
\issue 4
\pages 54--61
\mathnet{http://mi.mathnet.ru/izkab892}
\crossref{https://doi.org/10.35330/1991-6639-2024-26-4-54-61}
\elib{https://elibrary.ru/item.asp?id=https://www.elibrary.ru/item.asp?id=68967043}
\edn{https://elibrary.ru/KZKDOT}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/izkab892
  • https://www.mathnet.ru/rus/izkab/v26/i4/p54
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Известия Кабардино-Балкарского научного центра РАН Известия Кабардино-Балкарского научного центра РАН
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025