- BrainTools - https://www.braintools.ru -

Пока все спорили про большие модели, OpenAI спустилась этажом ниже и собрала инференс-чип Jalapeño вместе с Broadcom, а самый большой аудит судей-LLM напомнил, что мерить всё это мы толком не умеем.
💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь [1]
OpenAI показала [2] превью GPT-5.6 в трёх вариантах: Sol как флагман, Terra среднего уровня и Luna для дешёвых массовых задач. Цены такие: $5/$30, $2.5/$15 и $1/$6 за миллион токенов на вход и выход, то есть Sol стоит ровно как GPT-5.5. Доступ в превью получили примерно 20 организаций через API и Codex, и сделано это, по словам самой OpenAI, по просьбе правительства США. Компания показала модели властям до анонса и стартовала с узкого круга “доверенных партнёров”, чьи имена переданы государству. В том же анонсе OpenAI прямым текстом написала, что не считает такой режим доступа нормальным на постоянной основе, потому что он держит лучшие инструменты подальше от тех, кому они нужны.

А заодно Sol поставила рекорд, которым не хвастаются. METR, независимая лаборатория оценки моделей, намерила [3] у неё самый высокий процент жульничества среди всех публичных моделей, что они проверяли: модель вскрывала баги тестового окружения и доставала спрятанные ответы. Из-за этого цифры просто рассыпались. Если считать попытки сжульничать провалом, “горизонт” автономной работы выходит около 11.3 часа; если засчитать их как успех, он улетает за 270 часов. METR честно говорит, что ни одно из этих чисел не считает надёжным.
Пока один отдел Anthropic договаривается с Вашингтоном про доступ к Mythos, другой пишет в Конгресс доносы. В письме сенаторам Тиму Скотту и Элизабет Уоррен от 10 июня компания обвинила [4] Alibaba в “крупнейшей известной distillation-атаке“: с 22 апреля по 5 июня операторы, связанные с лабораторией Qwen, провели 28.8 миллиона обменов с Claude через почти 25 000 фейковых аккаунтов, чтобы перегнать дорогие способности модели в свою. Для масштаба: февральская троица DeepSeek, Moonshot и MiniMax вместе наскребла 16 миллионов через 24 000 аккаунтов. Дарио Амодеи, CEO Anthropic, заодно просит Конгресс закрыть лазейки с доступом китайских лабораторий к чипам.
На прошлой неделе GLM-5.2 от китайской Z.ai [5] вышла как лучшая открытая модель, разбирал [6] подробно. На этой её проверили в бою: команда Cline прогнала [7] GLM-5.2 и Opus 4.8 на одном живом баге в собственном репозитории через один и тот же harness. GLM работала медленнее и дёргала больше инструментов, зато вышла дешевле ($0.41 против $0.81) и аккуратнее с проверкой, тогда как Opus оставил ошибки [8] типов, которые тесты пропустили. На бенчмарке GDPval-AA про реальную оплачиваемую работу она встала [9] на третье место с 1524 Elo, позади только Claude Fable 5 и Opus 4.8 и вровень с GPT-5.5, при цене $1.40/$4.40 за миллион токенов. Картинка не идеальная, на сложных длинных задачах Opus всё ещё заметно отрывается.

Sakana AI показала [10] Fugu, модель, которая дирижирует пулом чужих топовых моделей (Gemini 3.1 Pro, Opus 4.8, GPT-5.5) через один API. Идея прямо продаётся как страховка от экспортных ограничений: если один провайдер отрубает доступ, оркестратор маршрутизирует вокруг него. Звучит красиво, но к релизу сразу прилетело. Paper здесь [11]. Эли Бакуш из Hugging Face и другие разобрали [12] Fugu как router поверх заранее спланированного многошагового workflow: базлайны анонимизированы под “Model A/B/C”, а главное, нет отчёта по токенам и стоимости, хотя для оркестрации в духе best-of-N это половина правды. По собственной таблице Sakana Fugu Ultra обгоняет Opus 4.8 и заявляет паритет с закрытыми Fable 5 и Mythos, которых в пул как раз не пускают.

OpenAI на этой неделе залезла на уровень ниже самих моделей. Вместе с Broadcom компания представила [13] Jalapeño, свой первый чип под инференс LLM. Заявка дерзкая: от первого дизайна до tape-out (готовности чипа к производству) за девять месяцев, что OpenAI называет самым быстрым циклом разработки ASIC в истории высокопроизводительных полупроводников, и часть работы ускорили собственными моделями. Партнёрство с Broadcom анонсировали ещё в октябре 2025, деплой обещают уже в 2026 на гигаваттных масштабах. Когда владеешь и моделями, и чипами, и дата-центрами, каждый слой можно затачивать под одну цель и гонять собственный инференс дешевле.

В тот же день Qualcomm объявила [14] о покупке Modular, компании Криса Латтнера (создателя LLVM и языка Swift). Modular делает софтверный слой под чипами: стек гоняет модели по CPU, GPU, NPU и кастомным ASIC без переписывания под каждый ускоритель, ровно тот уровень, который пытается обойти монополию CUDA от NVIDIA. Латтнер пообещал, что язык Mojo всё равно откроют в этом году, но комьюнити нервничает: нейтральный рантайм под крылом производителя чипов уже не такой нейтральный. Reuters оценил сделку примерно в $3.92 миллиарда, официально сумму не раскрыли.
Anthropic запустила [15] Claude Tag и теперь Claude живёт прямо в Slack: его можно тегнуть в тред и делегировать задачу, как живому коллеге, а права и память [16] привязаны к каналам, которые открыл админ. Внутри Anthropic уже 65% кода продуктовой команды пишет внутренняя версия этой штуки. Андрей Карпаты назвал [17] это третьим большим переосмыслением интерфейса LLM: сначала сайт, потом десктоп-приложение, теперь постоянный асинхронный агент с правами и контекстом на всю организацию. Скептики, правда, тут же спросили: если Claude сам себя тегает и сам себе пишет, зачем в этой схеме вообще Slack.
Google перевёл [18] Interactions API в GA и сделал его основным интерфейсом для моделей и агентов. В коробке Managed Agents с дефолтным агентом Antigravity, который поднимает изолированную Linux-песочницу прямо по API и сам крутит цикл “подумал, выполнил код, посмотрел результат”, плюс флаг background для долгих задач, переживающих обрыв HTTP. По сути это первоклассный ответ на вопрос “где живёт агент и что ему можно”, встроенный прямо в дефолтный способ дёргать Gemini вместо отдельного продукта.
Databricks выложила [19] в открытый доступ Omnigent, который Матей Захария (CTO Databricks и один из авторов Apache Spark) прямо называет “мета-харнессом, харнессом над харнессами”. Раз харнессов теперь много, кто-то должен сидеть над ними: Omnigent оборачивает Claude Code, Codex, Pi и ваших собственных агентов в общий слой, где их можно комбинировать в одной сессии, навешивать политики и бюджеты не через промпт, а на уровне рантайма, и шарить живую сессию с коллегами по ссылке. Аргумент Захарии тот же, что когда-то вытащил MCP: слой должен быть открытым, иначе экосистема о нём не договорится.
Поверх всего этого зоопарка стоит вопрос, которым неделя началась у METR: а мы вообще умеем это мерить. Самый большой на сегодня аудит [20] судей-LLM (моделей, которых ставят оценивать ответы других моделей) прогнал 21 судью от девяти провайдеров на ~541 000 суждений и показал неприятное. Привычная метрика “точного совпадения” завышает согласие судьи с человеком, а если перейти на честную каппу Коэна (поправку на случайные совпадения), согласие проседает на 33–41 пункт на MT-Bench, и рейтинги судей скачут до 14 позиций. Многие команды гоняют такие модели-судьи как внутреннюю инфраструктуру оценки. Получается, мы строим агентов, которых не очень умеем мерить, и судим их моделями, которым не очень стоит верить.
Оставайтесь любопытными.
Пишу об искусственном интеллекте [21], языковых моделях и инструментах для разработчиков. Тестирую модели и сервисы на реальных задачах, а выводами делюсь в телеграм-канале [22].
Автор: xonika9
Источник [23]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/32426
URLs in this post:
[1] Оригинал статьи здесь: https://gotacat.dev/blog/weekly-ai-hallucinations-claude-tag-alibaba-distillation-gpt-5-6-jalapeno
[2] показала: https://openai.com/index/previewing-gpt-5-6-sol/
[3] намерила: https://metr.org/blog/2026-06-26-gpt-5-6-sol/
[4] обвинила: https://www.cnbc.com/2026/06/24/anthropic-alibaba-distillation-campaign.html
[5] Z.ai: http://Z.ai
[6] разбирал: https://gotacat.dev/blog/weekly-ai-hallucinations-spacex-cursor-glm-5-2-midjourney
[7] прогнала: https://x.com/cline/status/2069171146994729078
[8] ошибки: http://www.braintools.ru/article/4192
[9] встала: https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index
[10] показала: https://sakana.ai/fugu-release/
[11] здесь: https://arxiv.org/abs/2606.21228
[12] разобрали: https://x.com/eliebakouch/status/2068939729811468503
[13] представила: https://openai.com/index/openai-broadcom-jalapeno-inference-chip/
[14] объявила: https://www.modular.com/blog/qualcomm-to-acquire-modular
[15] запустила: https://www.anthropic.com/news/introducing-claude-tag
[16] память: http://www.braintools.ru/article/4140
[17] назвал: https://x.com/karpathy/status/2069547676849557725
[18] перевёл: https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/
[19] выложила: https://www.databricks.com/blog/introducing-omnigent-meta-harness-combine-control-and-share-your-agents
[20] аудит: https://arxiv.org/abs/2606.19544
[21] интеллекте: http://www.braintools.ru/article/7605
[22] телеграм-канале: https://t.me/+D2V20JNpJV1kMzEy
[23] Источник: https://habr.com/ru/news/1053458/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1053458
Нажмите здесь для печати.