- BrainTools - https://www.braintools.ru -
20 мая вышло сразу две модели, на которые стоит обратить внимание [1]. Alibaba объявила Qwen3.7-Max, а xAI тихо выложила на OpenRouter Grok Build 0.1. Обе модели решают одну задачу: организуют автономную работу кодинг-агентов. Разбираемся, что внутри.

Alibaba создала эту модель для многошаговых автономных задач. Три основных сценария, которые они сами называют: кодинг-агент, офисный автоматизатор и исполнитель долгих задач.

На GPQA Diamond модель набрала 92.4 против 91.3 у Claude Opus 4.6 Max, на математическом HMMT — 97.1, на офисном SpreadSheetBench — 87. Числа хорошие, хотя бенчмарки всегда стоит воспринимать с поправкой на конкретную задачу.
Самое интересное в анонсе — демонстрация 35-часового автономного прогона. Модели дали задачу: оптимизировать вычислительное ядро на незнакомом железе, без документации. За ~35 часов она сделала более 1100 вызовов инструментов, писала, компилировала, профилировала и переписывала код — итог: 10-кратное ускорение. Для сравнения: GLM 5.1 в тех же условиях вышел на 7.3x, Kimi K2.6 — на 5x, DeepSeek V4 Pro — на 3.3x.
Ещё одна деталь: по данным LMArena, превью Qwen3.7-Max взяло 13-е место в общем рейтинге. Это лучший результат для китайских моделей в текущем рейтинге арены.
xAI выпустила Grok Build 0.1 настолько тихо, что большинство сообщества это пропустило. Модель появилась на OpenRouter 20 мая и позиционируется как прямой
Контекстное окно — 256K токенов без ограничения на выходной текст. Значит, агент может рефакторить большие кодовые базы без обрывов и команды «продолжай».
Ранний доступ через CLI был у подписчиков SuperGrok Heavy ($300/мес). Теперь модель доступна через API: $1 за миллион входных токенов, $2 за миллион выходных. По цене — один из самых дешёвых вариантов среди кодинг-моделей фронтира.
По ранним тестам сообщества: лендинг профессионального вида генерирует за 40 секунд, стоимость генерации — меньше десяти центов. Модель быстрая и хорошо берёт «с одного выстрела» задачи на создание интерфейсов.
Кто-то просматривал цепочку рассуждений Grok Build 0.1 — то, что модель «думает» перед ответом — и случайно увидел там системный промпт самой модели. То есть инструкцию, которую xAI пишет модели в секрете от пользователей. Её не должно быть видно никому снаружи.
Что в этом промпте написано
Дословно (перевожу): «Ты полезный ассистент, чья работа — превращать подробные внутренние рассуждения в чистый, естественный финальный ответ для пользователя. Никогда не упоминай, что ты суммаризируешь или обрабатываешь какой-либо трейс».
В чём главное открытие? Grok Build 0.1 — это не одна модель, а две, работающие цепочкой:
Модель-мыслитель — думает «вслух», генерирует сырое рассуждение;
Модель-редактор — берёт это рассуждение и причёсывает его в нормальный ответ.
Пользователь видит только финальный ответ и думает, что общается с одной цельной моделью. Системный промпт прямо запрещает редактору признаваться, что он редактор.
Почему это утекло именно через reasoning? Разделитель между запросом пользователя и сырым рассуждением проходит прямо внутри user turn. Там, где не должно быть никаких системных инструкций — они и всплыли.
Как это использовать на практике: если вы работаете с Grok Build 0.1 через API и каким-то образом можете подсунуть контент в слой сырого рассуждения — вы потенциально влияете на то, что редактор выдаст пользователю.
Обе модели уже работают в [3]SpeShu.AI [4] — Qwen3.7-Max и Grok Build 0.1 доступны без VPN и дорогих зарубежных подписок. Оплата по факту использования в рублях по СБП.
Кроме того, Qwen3.7-Max и Grok Build 0.1 подключены к API SpeShu.AI [5]. Сразу 300+ моделей открывается по одному ключу: переключаетесь между Qwen3.7-Max, Grok Build 0.1, Claude, DeepSeek и остальными без новых аккаунтов и отдельных подписок. Для российского бизнеса, который ведёт бухгалтерию, это особенно важно: оплата в рублях по СБП, счета и акты, поддержка ЭДО — всё закрыто документально без схем с иностранными картами и криптой. VPN не нужен. Единый баланс на все модели, расходы по проектам видны в личном кабинете.
Обе модели вышли в один день и обе целятся в одну нишу — автономные агенты для кода и многошаговых задач. Qwen3.7-Max берёт масштабом и длиной прогона, Grok Build 0.1 — скоростью и дешевизной. Если вы работаете с ИИ-агентами или просто хотите посмотреть, куда движется кодинг-направление — сейчас хорошее время протестировать обе новинки.
Автор: SpeShuNews
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/30607
URLs in this post:
[1] внимание: http://www.braintools.ru/article/7595
[2] обсуждения на Реддите: https://www.reddit.com/r/LLMDevs/comments/1tk7b58/i_was_reading_through_the_chain_of_thought_of_a/
[3] : https://speshu.ai
[4] SpeShu.AI: https://speshu.ai/?utm_source=media&utm_medium=habr&utm_campaign=qwen3.7-max-grok-build-0.1
[5] API SpeShu.AI: https://speshu.ai/docs?utm_source=media&utm_medium=habr&utm_campaign=qwen3.7-max-grok-build-0.1
[6] Источник: https://habr.com/ru/companies/tsnis/articles/1038046/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1038046
Нажмите здесь для печати.