Аннотация:
Данный доклад состоит из двух частей. Первая часть посвящена стохастическому градиентному спуску с предобуславливанием. Разработан унифицированный теоретический анализ адаптивного мета-алгоритма (Gupta et al., 2017), который покрывает существующие популярные алгоритмы, такие как AdaGrad и Shampoo. Анализ показывает как эти алгоритмы могут эксплуатировать структурные свойства задачи. Также проанализирована возможность ускорения сходимости алгоритмов с помощью момента Нестерова. Вторая часть посвящена адаптивным градиентным методам для решения нестохастических задач оптимизации, которые могут по-настоящему адаптироваться к локальной кривизне (локальной константе Липшица градиента) целевой функции. Главный результат состоит в том, что предложен вариант такого метода с ускоренной сходимостью с помощью момента Нестерова. В отличие от существующих ускоренных адаптивных методов, предложенный алгоритм может наращивать размер шага с геометрической скоростью, что имеет крайне существенным образом влияет на его адаптивные способности. Данное преимущество демонстрируется путем доказательства наилучших результатов сходимости в предположении обобщенной гладкости целевой функции.