Аннотация:
Будут обсуждаться физико-подобные модели в теории обучения.
Гроккинг (отложенное обобщение) есть явление в теории обучения перепараметризованных систем (т.е. систем с большим числом параметров) для алгоритмических задач обучения (например, обучение умножению). При гроккинге система быстро запоминает обучающую выборку (например, половину таблицы умножения), но сначала даёт неправильные ответы на контрольной выборке (второй половине таблицы умножения). Затем, при продолжении процедуры стохастического градиентного спуска, происходит гроккинг (отложенное обобщение) - система начинает давать правильные ответы на вопросы из контрольной выборки.
В докладе стохастический градиентный спуск будет рассматриваться как броуновское движение, и гроккинг получит объяснение как проявление второго закона термодинамики и формулы Эйринга кинетической теории.
Изложение будет следовать препринту S. V. Kozyrev, How to explain grokking, arXiv:2412.18624.