- BrainTools - https://www.braintools.ru -

Маленькая модель с большими возможностями: как K2‑Think обыгрывает гигантов в математике и программировании

Маленькая модель с большими возможностями: как K2‑Think обыгрывает гигантов в математике и программировании - 1

За последний год стало ясно: чтобы лучше решать сложные задачи, LLM не обязательно должны только расти в параметрах. Важнее научить модель думать длинно и структурировано, а часть вычислений перенести на этап выполнения запроса. K2‑Think — яркий пример этого сдвига. Команда берёт доступную по масштабу 32B‑модель и выжимает из неё максимум на математике [1], коде и научных задачах — сопоставимо с системами на порядок больше.

Эффективность по параметрам: K2‑Think (32B) держится на уровне и выше гораздо более крупных систем на сложной математике. Сводный балл — микро‑среднее по четырём бенчмаркам.

Эффективность по параметрам: K2‑Think (32B) держится на уровне и выше гораздо более крупных систем на сложной математике. Сводный балл — микро‑среднее по четырём бенчмаркам.

Что такое K2‑Think в двух словах

В основе — Qwen2.5‑32B, которую не дообучали под размышление ранее. Дальше — связный рецепт из шести опор:

  • длинные цепочки мыслей при SFT, чтобы задать формат и ритм рассуждений;

  • RL с проверяемыми вознаграждениями (задачи, где ответ можно автоматически проверить);

  • планирование до рассуждения: модель сначала составляет план, затем думает;

  • тест‑тайм скейлинг: несколько независимых попыток и выбор лучшей (Best‑of‑3);

  • спекулятивное декодирование для ускорения генерации;

  • аппаратная оптимизация на Cerebras WSE — до 2,000 токенов в секунду.

Как учили думать

Первая фаза — SFT на AM‑Thinking‑v1‑Distilled с длинными CoT. Это быстро сдвигает потолок: на AIME 2024 модель стабилизируется около 79–80% ещё в первой трети обучения [2], на AIME 2025 — около 72%, а дальше отдача резко падает. Итоговый чекпойнт K2‑Think‑SFT уверенно обгоняет базу на всех бюджетах попыток.

Кривая обучения K2‑Think‑SFT: самый быстрый рост качества — в начале, затем плато.

Кривая обучения K2‑Think‑SFT: самый быстрый рост качества — в начале, затем плато.
Pass@k на AIME 2024: SFT‑версия стабильно лучше базы по мере роста числа попыток.

Pass@k на AIME 2024: SFT‑версия стабильно лучше базы по мере роста числа попыток.

Что дала RL с проверяемыми наградами

Вторая фаза — RLVR на ~92k задач в шести доменах. Картина ясная: если стартовать с сильного SFT, RL добавляет лишь несколько процентов, а иногда легко уйти в плато или деградацию. Отдельно важно: многостадийный RL с урезанием контекста ломает паттерны, сформированные SFT, и результат не возвращается к базовому уровню.

RL на AIME 2024: старт с сильного SFT даёт меньший прирост, чем RL с нуля — сигнал о сокращающемся запасе улучшений.

RL на AIME 2024: старт с сильного SFT даёт меньший прирост, чем RL с нуля — сигнал о сокращающемся запасе улучшений.
Многостадийный RL с уменьшением контекста ухудшает качество — лучше не трогать длину, заданную на SFT.

Многостадийный RL с уменьшением контекста ухудшает качество — лучше не трогать длину, заданную на SFT.

Как усилили модель во время инференса

Третья опора — тест‑тайм приёмы. Сначала внешняя LLM извлекает ключевые концепты и строит краткий план, потом K2‑Think генерирует несколько ответов, и внешняя модель выбирает лучший. Практика показала: Best‑of‑3 даёт основной прирост, план добавляет ещё пару пунктов и одновременно сокращает длину ответа примерно на 12%. Температуру оставили 1.0 — тонкая настройка не помогала.

Схема: планирование до рассуждения и Best‑of‑3 с внешней проверкой. Сочетание даёт устойчивый прирост при умеренной цене.

Схема: планирование до рассуждения и Best‑of‑3 с внешней проверкой. Сочетание даёт устойчивый прирост при умеренной цене.

Что получилось на бенчмарках

  • Математика. 67.99 по AIME 2024/2025, HMMT25 и Omni‑MATH‑HARD. На самом тяжёлом Omni‑HARD — 60.73. В открытом сегменте это верхняя планка; рядом проприетарные о3 High и Gemini 2.5 Pro.

  • Код. LiveCodeBench — 63.97, выше многих больших открытых систем; SciCode — 39.2/12.0, сопоставимо с Qwen3‑235B‑A22B.

  • Наука [3]. GPQA‑Diamond — 71.08 (сильно), HLE — 9.95 (умеренно).

Абордаж фронтира достигается не ростом параметров, а интеграцией длинного SFT и продуманного тест‑тайм расчёта.

Почему работа важна

Главный урок: стоит инвестировать не только в предобучение и число параметров, но и в грамотную организацию вычислений во время инференса. Простая связка планирования и Best‑of‑N, плюс быстрый рантайм, позволяет 32B‑модели бить гигантов из другой весовой категориями, конкурируя в математике и программировании. Это открывает дорогу практичным, доступным по бюджету решениям, которые можно масштабировать и проверять в реальном использовании — как команда и делает через веб и API.

📜 Полная статья [4]

💾 Демо [5]

🤖 Модель [6]

***

Если вам интересна тема ИИ,  [7]подписывайтесь на мой Telegram‑канал [8]  [9]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19755

URLs in this post:

[1] математике: http://www.braintools.ru/article/7620

[2] обучения: http://www.braintools.ru/article/5125

[3] Наука: http://www.braintools.ru/article/7634

[4] 📜 Полная статья: https://arxiv.org/abs/2509.07604

[5] 💾 Демо: http://k2think.ai/

[6] 🤖 Модель: https://huggingface.co/LLM360/K2-Think

[7]  : https://t.me/+mP35nQPhgXZmZDYy

[8] подписывайтесь на мой Telegram‑канал: https://t.me/+yPSk0uR3bldhMDli

[9]  : https://t.me/+9nDCqOqSLiM3NTVi

[10] Источник: https://habr.com/ru/articles/949156/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949156

www.BrainTools.ru

Rambler's Top100