оптимизатор adam.

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Мы часто спорим об архитектурах: трансформеры, mamba, гибридные слои. Но мы редко смотрим на двигатель, который заставляет эти архитектуры сходиться. Последние годы этим двигателем был AdamW.Но если вы следите за SOTA моделями 2026 года, вы заметили тектонический сдвиг. DeepSeek-V4 и Kimi K2 / Moonlight заявили о переходе на новый оптимизатор Muon. Он позволил Moonshot AI обучить модель на 15.5 триллионах токенов без единого спайка, а DeepSeek кардинально ускорить сходимость. Почему гиганты отказываются от AdamW? Потому что AdamW концептуально слеп. Проблема Adam: Слепота к Геометрии

продолжить чтение

Оставлено в

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

У каждого из нас есть "мышечная память" при написании кода обучения нейросетей. Мы собираем архитектуру, а затем пишем примерно такую строчку, даже не задумываясь: optimizer = torch.optim.AdamW(model.parameters(), lr=1e-4, weight_decay=0.1)Weight Decay (L2-регуляризация) это база. Мы знаем, что он тянет веса к нулю, не дает отдельным нейронам "зазвездиться" и предотвращает переобучение. Для линейных слоев (W * X) это работает великолепно. Но Трансформер состоит не только из матриц W. В нем есть специфические слои, для которых Weight Decay это не лекарство от переобучения, а тихий убийца

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

оптимизатор adam.

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

оптимизатор adam.

Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию