LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE?. ai.. ai. github.. ai. github. Блог компании BotHub.. ai. github. Блог компании BotHub. Будущее здесь.. ai. github. Блог компании BotHub. Будущее здесь. ИИ.. ai. github. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. github. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. github. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. github. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. github. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE? - 1

Команда LMSYS ORG, известная своими опенсорс-инициативами и Chatbot Arena, представила новый фреймворк Miles. Он ориентирован на RL-обучение моделей в промышленном масштабе и создан как развитие проекта slime, который уже применялся в пост-трейне современных моделей. В частности, slime использовали при запуске GLM-4.6. Его популярность доказала, что лёгкий дизайн может работать на серьезных задачах, а Miles поднимает эту идею на новый уровень, добавляя поддержку масштабных архитектур Mixture of Experts и высоких рабочих нагрузок.

Miles вводит подход, который разработчики называют True On-Policy. Ранее между процессом генерации и тренировкой модели возникало заметное расхождение, но инфраструктурные изменения позволили добиться нулевой дивергенции. Это стало возможным благодаря связке Flash Attention 3, DeepGEMM и специализированных ядер от Thinking Machines Lab, которые работают вместе с torch.compile.

LMSYS запускает Miles и обещает ускорение RL на 25 процентов. Конец эпохе медленных MoE? - 2

Фреймворк также использует продвинутую форму спекулятивного декодирования. Обычно в RL черновая модель замораживается, что ограничивает её способность следовать политике целевой модели. В Miles реализовано онлайн-обучение черновой модели, поэтому она может адаптироваться в реальном времени. На практике это дает более чем 25 процентов прироста скорости генерации, особенно на поздних этапах обучения.

Отдельный акцент сделан на стабильности и экономии памяти. Разработчики улучшили обработку ошибок OOM, предотвращая падение системы при незначительных перегрузках, а также оптимизировали потребление памяти в FSDP. Такой подход критически важен для корпоративных пользователей, где каждый гигабайт GPU-памяти буквально стоит денег.

На ближайшей дорожной карте заявлена поддержка мультимодального обучения, расширенное спекулятивное декодирование и совместимость с SGLang v2.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100