- BrainTools - https://www.braintools.ru -

LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE?

LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE? - 1

Команда LMSYS ORG, известная своими опенсорс-инициативами и Chatbot Arena, представила новый фреймворк Miles [1]. Он ориентирован на RL-обучение моделей в промышленном масштабе и создан как развитие проекта slime, который уже применялся в пост-трейне современных моделей. В частности, slime использовали при запуске GLM-4.6. Его популярность доказала, что лёгкий дизайн может работать на серьезных задачах, а Miles поднимает эту идею на новый уровень, добавляя поддержку масштабных архитектур Mixture of Experts и высоких рабочих нагрузок.

Miles вводит подход, который разработчики называют True On-Policy. Ранее между процессом генерации и тренировкой модели возникало заметное расхождение, но инфраструктурные изменения позволили добиться нулевой дивергенции. Это стало возможным благодаря связке Flash Attention 3, DeepGEMM и специализированных ядер от Thinking Machines Lab, которые работают вместе с torch.compile.

LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE? - 2

Фреймворк также использует продвинутую форму спекулятивного декодирования. Обычно в RL черновая модель замораживается, что ограничивает её способность следовать политике целевой модели. В Miles реализовано онлайн-обучение черновой модели, поэтому она может адаптироваться в реальном времени. На практике это дает более чем 25 процентов прироста скорости генерации, особенно на поздних этапах обучения [2].

Отдельный акцент сделан на стабильности и экономии памяти [3]. Разработчики улучшили обработку ошибок OOM, предотвращая падение системы при незначительных перегрузках, а также оптимизировали потребление памяти в FSDP. Такой подход критически важен для корпоративных пользователей, где каждый гигабайт GPU-памяти буквально стоит денег.

На ближайшей дорожной карте заявлена поддержка мультимодального обучения, расширенное спекулятивное декодирование и совместимость с SGLang v2.


Делегируйте часть рутинных задач вместе с BotHub! [4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник [6]

Автор: cognitronn

Источник [7]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22288

URLs in this post:

[1] Miles: https://github.com/radixark/miles

[2] обучения: http://www.braintools.ru/article/5125

[3] памяти: http://www.braintools.ru/article/4140

[4] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=META%20TURNS%20ENERGY%20INTO%20A%20COMMODITY:%20NEW%20BUSINESS%20FOR%20LARGE-SCALE%20AI%20CENTERS

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Источник: https://lmsys.org/blog/2025-11-19-miles/

[7] Источник: https://habr.com/ru/companies/bothub/news/969390/?utm_source=habrahabr&utm_medium=rss&utm_campaign=969390

www.BrainTools.ru

Rambler's Top100