Allen Institute for AI обновил линейку моделей Olmo до версии 3.1. ai.. ai. ai2.. ai. ai2. Apache 2.0.. ai. ai2. Apache 2.0. olmo.. ai. ai2. Apache 2.0. olmo. Блог компании BotHub.. ai. ai2. Apache 2.0. olmo. Блог компании BotHub. Будущее здесь.. ai. ai2. Apache 2.0. olmo. Блог компании BotHub. Будущее здесь. ИИ.. ai. ai2. Apache 2.0. olmo. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. ai2. Apache 2.0. olmo. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное.. ai. ai2. Apache 2.0. olmo. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть.
Allen Institute for AI обновил линейку моделей Olmo до версии 3.1 - 1

ИИ-стартап Ai2 объявил о выпуске OLMo 3.1 32B Think – новой флагманской модели в рамках семейства OLMo 3, ориентированной на задачи, требующие сложного пошагового рассуждения. Модель распространяется под лицензией Apache 2.0, что делает ее доступной для исследовательского и образовательного использования с полным раскрытием кода, контрольных точек и данных обучения.

Подробнее о OLMo 3.1 32B Think

OLMo 3.1 32B Think является трансформер-моделью с 32 миллиардами параметров и обучена исключительно на англоязычном датасете Dolma 3, после чего модель прошла многоэтапное пост-обучение на специализированных наборах Dolci, направленных на развитие математического, алгоритмического и программного мышления. В Ai2 подчеркивают, что ключевая цель серии OLMo – не только достичь высокого качества, но обеспечить максимальную открытость: архитектура, данные и процесс обучения полностью задокументированы и доступны в открытом доступе.

Финальная версия OLMo 3.1 32B Think формировалась в три этапа. Сначала модель прошла SFT-обучение, включающем задачи по математике, программированию, общему чату и работе с инструкциями. Затем применялась техника DPO, где модель обучалась выбирать более качественные способы выстраивания рассуждения. Завершающим этапом стало обучение с подкреплением на основе проверяемых вознаграждений (RLVR), ориентированного на строго проверяемые математические и кодовые ответы. Именно этот этап, по словам разработчиков, дал основной прирост производительности в задачах формального рассуждения.

В математическом бенчмарке MATH модель набрала 96,2%, превзойдя OLMo 2 32B Instruct с результатом 49,2% и Qwen 2.5 32B с 80,2%. В задачах AIME 2024 результат составил 80,6%, а на AIME 2025 – 78,1%, что значительно выше показателей большинства открытых альтернатив. В более сложном наборе OMEGA модель достигла 53,4%, тогда как OLMo 2 32B показал менее 10 %. В задачах логического мышления OLMo 3.1 32B Think набрала 88,6% на BigBenchHard, 80,1% на ZebraLogic и 89,2% на AGI Eval English. В программировании модель показала 91,5% на HumanEvalPlus и 83,3% на LiveCodeBench v3, что выводит ее в один ряд с лучшими открытыми моделями для агентного кодинга. В тестах на следование инструкциям результаты также выросли: 93,8% на IFEval и 68,1% на IFBench, что заметно выше показателей версий без RLVR-этапа.

Allen Institute for AI обновил линейку моделей Olmo до версии 3.1 - 2

Также модель набрала 86,4% на MMLU и 57,5% на GPQA, уступая некоторым закрытым и мультимодальным моделям, но при этом сохраняя конкурентоспособность в открытом сегменте. В диалоговых оценках AlpacaEval 2 LC результат составил 69,1%, а по метрикам безопасности модель получила 83,6%, что указывает на более устойчивое поведение по сравнению с предыдущими поколениями OLMo Think. OLMo 3.1 32B Think доступна в формате BF16 и может запускаться как через библиотеку Transformers, так и через vLLM или другие совместимые движки инференса.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Rambler's Top100