Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения
Мы часто спорим об архитектурах: трансформеры, mamba, гибридные слои. Но мы редко смотрим на двигатель, который заставляет эти архитектуры сходиться. Последние годы этим двигателем был AdamW.Но если вы следите за SOTA моделями 2026 года, вы заметили тектонический сдвиг. DeepSeek-V4 и Kimi K2 / Moonlight заявили о переходе на новый оптимизатор Muon. Он позволил Moonshot AI обучить модель на 15.5 триллионах токенов без единого спайка, а DeepSeek кардинально ускорить сходимость. Почему гиганты отказываются от AdamW? Потому что AdamW концептуально слеп. Проблема Adam: Слепота к Геометрии
Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию
У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца

