|
СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта
М. И. Рудаковab, А. Н. Безносиковab, Я. А. Холодовab, А. В. Гасниковab a Университет Иннополис, Иннополис, Республика Татарстан, Россия
b Московский физико-технический институт, Москва, Россия
Аннотация:
Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям, $K=10\%$ – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при $K=30\%$, значительно ухудшает качество модели.
Ключевые слова:
распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки.
Образец цитирования:
М. И. Рудаков, А. Н. Безносиков, Я. А. Холодов, А. В. Гасников, “Техники сжатия активаций слоев и градиентов для распределенного обучения моделей искусственного интеллекта”, Докл. РАН. Матем., информ., проц. упр., 514:2 (2023), 126–137; Dokl. Math., 108:suppl. 2 (2023), S272–S281
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/danma458 https://www.mathnet.ru/rus/danma/v514/i2/p126
|
Статистика просмотров: |
Страница аннотации: | 95 | Список литературы: | 9 |
|