Записки научных семинаров ПОМИ
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Зап. научн. сем. ПОМИ:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Записки научных семинаров ПОМИ, 2023, том 530, страницы 80–95 (Mi znsl7434)  

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Adversarial attacks on language models: WordPiece filtration and ChatGPT synonyms
[Состязательные атаки на языковые модели: фильтрация WordPiece и синонимы ChatGPT]

T. Ter-Hovhannisyan, H. Aleksanyan, K. Avetisyan

Russian-Armenian University, ISP RAS, Yerevan, Armenia
Список литературы:
Аннотация: В последние годы состязательные атаки на текст привлекли значительное внимание из-за их потенциальной возможности подорвать надежность моделей обработки естественного языка. Мы представляем новые подходы к созданию состязательных примеров на уровне символов и слов в виде черного ящика, применимые к моделям на основе BERT. Подход на уровне символов основан на идее добавления естественных опечаток в слово в соответствии с его токенизацией WordPiece. В рамках подходов на уровне слов мы представляем три метода, которые используют синонимичные слова-заменители, созданные ChatGPT и затем скорректированные для приведения их в соответствующую грамматическую форму для данного контекста. Кроме того, мы пытаемся минимизировать частоту возмущений, принимая во внимание ущерб, который каждое возмущение наносит модели. Комбинируя подходы на уровне символов, подходы на уровне слов и технику минимизации частоты возмущений, мы достигаем наилучшей производительности атаки. Наш лучший подход работает на 30-65% быстрее, чем лучший ранее метод Tampers, и имеет сопоставимую частоту возмущений. В то же время предлагаемые возмущения сохраняют семантическое сходство исходного и состязательного примеров и достигают относительно низкого значения расстояния Левенштейна. Библ. – 22 назв.
Ключевые слова: состязательные атаки, атаки на уровне символов, атаки на уровне слов, синонимы ChatGPT, WordPiece.
Поступило: 06.09.2023
Англоязычная версия:
Journal of Mathematical Sciences (New York), 2024, Volume 285, Issue 2, Pages 210–220
DOI: https://doi.org/10.1007/s10958-024-07427-z
Тип публикации: Статья
УДК: 81.322.2
Язык публикации: английский
Образец цитирования: T. Ter-Hovhannisyan, H. Aleksanyan, K. Avetisyan, “Adversarial attacks on language models: WordPiece filtration and ChatGPT synonyms”, Исследования по прикладной математике и информатике. II–2, Зап. научн. сем. ПОМИ, 530, ПОМИ, СПб., 2023, 80–95; J. Math. Sci. (N. Y.), 285:2 (2024), 210–220
Цитирование в формате AMSBIB
\RBibitem{TerAleAve23}
\by T.~Ter-Hovhannisyan, H.~Aleksanyan, K.~Avetisyan
\paper Adversarial attacks on language models: WordPiece filtration and ChatGPT synonyms
\inbook Исследования по прикладной математике и информатике.~II--2
\serial Зап. научн. сем. ПОМИ
\yr 2023
\vol 530
\pages 80--95
\publ ПОМИ
\publaddr СПб.
\mathnet{http://mi.mathnet.ru/znsl7434}
\transl
\jour J. Math. Sci. (N. Y.)
\yr 2024
\vol 285
\issue 2
\pages 210--220
\crossref{https://doi.org/10.1007/s10958-024-07427-z}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/znsl7434
  • https://www.mathnet.ru/rus/znsl/v530/p80
  • Эта публикация цитируется в следующих 1 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Записки научных семинаров ПОМИ
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025