- BrainTools - https://www.braintools.ru -

ИИ-стартап Ai2 объявил о выпуске OLMo 3.1 32B Think – новой флагманской модели в рамках семейства OLMo 3, ориентированной на задачи, требующие сложного пошагового рассуждения. Модель распространяется под лицензией Apache 2.0, что делает ее доступной для исследовательского и образовательного использования с полным раскрытием кода, контрольных точек и данных обучения [1].
OLMo 3.1 32B Think является трансформер-моделью с 32 миллиардами параметров и обучена исключительно на англоязычном датасете Dolma 3, после чего модель прошла многоэтапное пост-обучение на специализированных наборах Dolci, направленных на развитие математического, алгоритмического и программного мышления [2]. В Ai2 подчеркивают, что ключевая цель серии OLMo – не только достичь высокого качества, но обеспечить максимальную открытость: архитектура, данные и процесс обучения полностью задокументированы и доступны в открытом доступе.
Финальная версия OLMo 3.1 32B Think формировалась в три этапа. Сначала модель прошла SFT-обучение, включающем задачи по математике [3], программированию, общему чату и работе с инструкциями. Затем применялась техника DPO, где модель обучалась выбирать более качественные способы выстраивания рассуждения. Завершающим этапом стало обучение с подкреплением [4] на основе проверяемых вознаграждений (RLVR), ориентированного на строго проверяемые математические и кодовые ответы. Именно этот этап, по словам разработчиков, дал основной прирост производительности в задачах формального рассуждения.
В математическом бенчмарке MATH модель набрала 96,2%, превзойдя OLMo 2 32B Instruct с результатом 49,2% и Qwen 2.5 32B с 80,2%. В задачах AIME 2024 результат составил 80,6%, а на AIME 2025 – 78,1%, что значительно выше показателей большинства открытых альтернатив. В более сложном наборе OMEGA модель достигла 53,4%, тогда как OLMo 2 32B показал менее 10 %. В задачах логического мышления OLMo 3.1 32B Think набрала 88,6% на BigBenchHard, 80,1% на ZebraLogic и 89,2% на AGI Eval English. В программировании модель показала 91,5% на HumanEvalPlus и 83,3% на LiveCodeBench v3, что выводит ее в один ряд с лучшими открытыми моделями для агентного кодинга. В тестах на следование инструкциям результаты также выросли: 93,8% на IFEval и 68,1% на IFBench, что заметно выше показателей версий без RLVR-этапа.

Также модель набрала 86,4% на MMLU и 57,5% на GPQA, уступая некоторым закрытым и мультимодальным моделям, но при этом сохраняя конкурентоспособность в открытом сегменте. В диалоговых оценках AlpacaEval 2 LC результат составил 69,1%, а по метрикам безопасности модель получила 83,6%, что указывает на более устойчивое поведение [5] по сравнению с предыдущими поколениями OLMo Think. OLMo 3.1 32B Think доступна в формате BF16 и может запускаться как через библиотеку Transformers, так и через vLLM или другие совместимые движки инференса.
Делегируйте часть рутинных задач вместе с BotHub! [6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [8]
Автор: MrRjxrby
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23151
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] мышления: http://www.braintools.ru/thinking
[3] математике: http://www.braintools.ru/article/7620
[4] подкреплением: http://www.braintools.ru/article/5528
[5] поведение: http://www.braintools.ru/article/9372
[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=THE_ALLEN_INSTITUTE_FOR_AI_HAS_UPDATED_THE_OLMO_MODEL_RANGE_TO_VERSION_3.1
[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[8] Источник: https://serverflow.ru/blog/novosti/ai2-predstavil-olmo-3-1-32b-think-novaya-llm-s-aktsentom-na-glubokoe-razmyshlenie/
[9] Источник: https://habr.com/ru/companies/bothub/news/976472/?utm_source=habrahabr&utm_medium=rss&utm_campaign=976472
Нажмите здесь для печати.