
ИИ-стартап Ai2 объявил о выпуске OLMo 3.1 32B Think – новой флагманской модели в рамках семейства OLMo 3, ориентированной на задачи, требующие сложного пошагового рассуждения. Модель распространяется под лицензией Apache 2.0, что делает ее доступной для исследовательского и образовательного использования с полным раскрытием кода, контрольных точек и данных обучения.
Подробнее о OLMo 3.1 32B Think
OLMo 3.1 32B Think является трансформер-моделью с 32 миллиардами параметров и обучена исключительно на англоязычном датасете Dolma 3, после чего модель прошла многоэтапное пост-обучение на специализированных наборах Dolci, направленных на развитие математического, алгоритмического и программного мышления. В Ai2 подчеркивают, что ключевая цель серии OLMo – не только достичь высокого качества, но обеспечить максимальную открытость: архитектура, данные и процесс обучения полностью задокументированы и доступны в открытом доступе.
Финальная версия OLMo 3.1 32B Think формировалась в три этапа. Сначала модель прошла SFT-обучение, включающем задачи по математике, программированию, общему чату и работе с инструкциями. Затем применялась техника DPO, где модель обучалась выбирать более качественные способы выстраивания рассуждения. Завершающим этапом стало обучение с подкреплением на основе проверяемых вознаграждений (RLVR), ориентированного на строго проверяемые математические и кодовые ответы. Именно этот этап, по словам разработчиков, дал основной прирост производительности в задачах формального рассуждения.
В математическом бенчмарке MATH модель набрала 96,2%, превзойдя OLMo 2 32B Instruct с результатом 49,2% и Qwen 2.5 32B с 80,2%. В задачах AIME 2024 результат составил 80,6%, а на AIME 2025 – 78,1%, что значительно выше показателей большинства открытых альтернатив. В более сложном наборе OMEGA модель достигла 53,4%, тогда как OLMo 2 32B показал менее 10 %. В задачах логического мышления OLMo 3.1 32B Think набрала 88,6% на BigBenchHard, 80,1% на ZebraLogic и 89,2% на AGI Eval English. В программировании модель показала 91,5% на HumanEvalPlus и 83,3% на LiveCodeBench v3, что выводит ее в один ряд с лучшими открытыми моделями для агентного кодинга. В тестах на следование инструкциям результаты также выросли: 93,8% на IFEval и 68,1% на IFBench, что заметно выше показателей версий без RLVR-этапа.

Также модель набрала 86,4% на MMLU и 57,5% на GPQA, уступая некоторым закрытым и мультимодальным моделям, но при этом сохраняя конкурентоспособность в открытом сегменте. В диалоговых оценках AlpacaEval 2 LC результат составил 69,1%, а по метрикам безопасности модель получила 83,6%, что указывает на более устойчивое поведение по сравнению с предыдущими поколениями OLMo Think. OLMo 3.1 32B Think доступна в формате BF16 и может запускаться как через библиотеку Transformers, так и через vLLM или другие совместимые движки инференса.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


