|
Информатика и информационные процессы
Метод оценки степени доверия к само-объяснениям GPT-моделей
А. Н. Лукьянов, А. М. Трамова Российский экономический университет им. Г. В. Плеханова,
117997, Россия, Москва, Стремянный переулок, 36
Аннотация:
Со стремительным ростом использования генеративных нейросетевых моделей
для решения практических задач все более остро встает проблема объяснения их решений. По
мере ввода решений на основе нейросетей в медицинскую практику, государственное управление
и сферу обороны требования к таким системам в плане их интерпретируемости однозначно будут
расти. В данной работе предложен метод проверки достоверности само-объяснений, которые
модели дают постфактум, посредством сравнения распределения внимания модели во время
генерации ответа и его объяснения. Авторами предложены и разработаны методы для численной
оценки степени достоверности ответов генеративных предобученных трансформеров. Предлагается
использовать расхождение Кульбака – Лейблера над распределениями внимания модели во время
выдачи ответа и следующего за этим объяснения. Также предлагается вычислять отношение
внимания модели между изначальным запросом и сгенерированным объяснением с целью понять,
насколько само-объяснение было обусловлено собственным ответом. Для получения данных
величин предлагается алгоритм для рекурсивного вычисления внимания модели по шагам генерации.
В результате исследования была продемонстрирована работа предложенных методов, найдены
значения метрик, соответствующие корректным и некорректным объяснениям и ответам. Был
проведен анализ существующих в настоящий момент методов определения достоверности ответов
генеративных моделей, причем подавляющее большинство из них сложно интерпретируемые
обычным пользователем. В связи с этим мы выдвинули собственные методы, проверив их на
наиболее широко используемых на момент написания генеративных моделях, находящихся в
открытом доступе. В результате мы получили типичные значения для предложенных метрик,
алгоритм их вычисления и визуализации.
Ключевые слова:
нейронные сети, метрики, языковые модели, интерпретируемость, LLM, GPT, XAI
Поступила в редакцию: 24.06.2024 Исправленный вариант: 01.08.2024 Принята в печать: 07.08.2024
Образец цитирования:
А. Н. Лукьянов, А. М. Трамова, “Метод оценки степени доверия к само-объяснениям GPT-моделей”, Известия Кабардино-Балкарского научного центра РАН, 26:4 (2024), 54–61
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/izkab892 https://www.mathnet.ru/rus/izkab/v26/i4/p54
|
|