muon.

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Мы часто спорим об архитектурах: трансформеры, mamba, гибридные слои. Но мы редко смотрим на двигатель, который заставляет эти архитектуры сходиться. Последние годы этим двигателем был AdamW.Но если вы следите за SOTA моделями 2026 года, вы заметили тектонический сдвиг. DeepSeek-V4 и Kimi K2 / Moonlight заявили о переходе на новый оптимизатор Muon. Он позволил Moonshot AI обучить модель на 15.5 триллионах токенов без единого спайка, а DeepSeek кардинально ускорить сходимость. Почему гиганты отказываются от AdamW? Потому что AdamW концептуально слеп. Проблема Adam: Слепота к Геометрии

продолжить чтение