- BrainTools - https://www.braintools.ru -

За последний год стало ясно: чтобы лучше решать сложные задачи, LLM не обязательно должны только расти в параметрах. Важнее научить модель думать длинно и структурировано, а часть вычислений перенести на этап выполнения запроса. K2‑Think — яркий пример этого сдвига. Команда берёт доступную по масштабу 32B‑модель и выжимает из неё максимум на математике [1], коде и научных задачах — сопоставимо с системами на порядок больше.
В основе — Qwen2.5‑32B, которую не дообучали под размышление ранее. Дальше — связный рецепт из шести опор:
длинные цепочки мыслей при SFT, чтобы задать формат и ритм рассуждений;
RL с проверяемыми вознаграждениями (задачи, где ответ можно автоматически проверить);
планирование до рассуждения: модель сначала составляет план, затем думает;
тест‑тайм скейлинг: несколько независимых попыток и выбор лучшей (Best‑of‑3);
спекулятивное декодирование для ускорения генерации;
аппаратная оптимизация на Cerebras WSE — до 2,000 токенов в секунду.
Первая фаза — SFT на AM‑Thinking‑v1‑Distilled с длинными CoT. Это быстро сдвигает потолок: на AIME 2024 модель стабилизируется около 79–80% ещё в первой трети обучения [2], на AIME 2025 — около 72%, а дальше отдача резко падает. Итоговый чекпойнт K2‑Think‑SFT уверенно обгоняет базу на всех бюджетах попыток.
Вторая фаза — RLVR на ~92k задач в шести доменах. Картина ясная: если стартовать с сильного SFT, RL добавляет лишь несколько процентов, а иногда легко уйти в плато или деградацию. Отдельно важно: многостадийный RL с урезанием контекста ломает паттерны, сформированные SFT, и результат не возвращается к базовому уровню.
Третья опора — тест‑тайм приёмы. Сначала внешняя LLM извлекает ключевые концепты и строит краткий план, потом K2‑Think генерирует несколько ответов, и внешняя модель выбирает лучший. Практика показала: Best‑of‑3 даёт основной прирост, план добавляет ещё пару пунктов и одновременно сокращает длину ответа примерно на 12%. Температуру оставили 1.0 — тонкая настройка не помогала.
Математика. 67.99 по AIME 2024/2025, HMMT25 и Omni‑MATH‑HARD. На самом тяжёлом Omni‑HARD — 60.73. В открытом сегменте это верхняя планка; рядом проприетарные о3 High и Gemini 2.5 Pro.
Код. LiveCodeBench — 63.97, выше многих больших открытых систем; SciCode — 39.2/12.0, сопоставимо с Qwen3‑235B‑A22B.
Наука [3]. GPQA‑Diamond — 71.08 (сильно), HLE — 9.95 (умеренно).
Абордаж фронтира достигается не ростом параметров, а интеграцией длинного SFT и продуманного тест‑тайм расчёта.
Главный урок: стоит инвестировать не только в предобучение и число параметров, но и в грамотную организацию вычислений во время инференса. Простая связка планирования и Best‑of‑N, плюс быстрый рантайм, позволяет 32B‑модели бить гигантов из другой весовой категориями, конкурируя в математике и программировании. Это открывает дорогу практичным, доступным по бюджету решениям, которые можно масштабировать и проверять в реальном использовании — как команда и делает через веб и API.
📜 Полная статья [4]
💾 Демо [5]
🤖 Модель [6]
***
Если вам интересна тема ИИ, [7]подписывайтесь на мой Telegram‑канал [8] [9]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19755
URLs in this post:
[1] математике: http://www.braintools.ru/article/7620
[2] обучения: http://www.braintools.ru/article/5125
[3] Наука: http://www.braintools.ru/article/7634
[4] 📜 Полная статья: https://arxiv.org/abs/2509.07604
[5] 💾 Демо: http://k2think.ai/
[6] 🤖 Модель: https://huggingface.co/LLM360/K2-Think
[7] : https://t.me/+mP35nQPhgXZmZDYy
[8] подписывайтесь на мой Telegram‑канал: https://t.me/+yPSk0uR3bldhMDli
[9] : https://t.me/+9nDCqOqSLiM3NTVi
[10] Источник: https://habr.com/ru/articles/949156/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949156
Нажмите здесь для печати.