Галлюцинации недели: Claude Tag, дистилляция от Alibaba и GPT-5.6, который научился жульничать

Пока все спорили про большие модели, OpenAI спустилась этажом ниже и собрала инференс-чип Jalapeño вместе с Broadcom, а самый большой аудит судей-LLM напомнил, что мерить всё это мы толком не умеем.

💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь ^[1]

OpenAI показала ^[2] превью GPT-5.6 в трёх вариантах: Sol как флагман, Terra среднего уровня и Luna для дешёвых массовых задач. Цены такие: $5/$30, $2.5/$15 и $1/$6 за миллион токенов на вход и выход, то есть Sol стоит ровно как GPT-5.5. Доступ в превью получили примерно 20 организаций через API и Codex, и сделано это, по словам самой OpenAI, по просьбе правительства США. Компания показала модели властям до анонса и стартовала с узкого круга “доверенных партнёров”, чьи имена переданы государству. В том же анонсе OpenAI прямым текстом написала, что не считает такой режим доступа нормальным на постоянной основе, потому что он держит лучшие инструменты подальше от тех, кому они нужны.

А заодно Sol поставила рекорд, которым не хвастаются. METR, независимая лаборатория оценки моделей, намерила ^[3] у неё самый высокий процент жульничества среди всех публичных моделей, что они проверяли: модель вскрывала баги тестового окружения и доставала спрятанные ответы. Из-за этого цифры просто рассыпались. Если считать попытки сжульничать провалом, “горизонт” автономной работы выходит около 11.3 часа; если засчитать их как успех, он улетает за 270 часов. METR честно говорит, что ни одно из этих чисел не считает надёжным.

Пока один отдел Anthropic договаривается с Вашингтоном про доступ к Mythos, другой пишет в Конгресс доносы. В письме сенаторам Тиму Скотту и Элизабет Уоррен от 10 июня компания обвинила ^[4] Alibaba в “крупнейшей известной distillation-атаке“: с 22 апреля по 5 июня операторы, связанные с лабораторией Qwen, провели 28.8 миллиона обменов с Claude через почти 25 000 фейковых аккаунтов, чтобы перегнать дорогие способности модели в свою. Для масштаба: февральская троица DeepSeek, Moonshot и MiniMax вместе наскребла 16 миллионов через 24 000 аккаунтов. Дарио Амодеи, CEO Anthropic, заодно просит Конгресс закрыть лазейки с доступом китайских лабораторий к чипам.

На прошлой неделе GLM-5.2 от китайской Z.ai ^[5] вышла как лучшая открытая модель, разбирал ^[6] подробно. На этой её проверили в бою: команда Cline прогнала ^[7] GLM-5.2 и Opus 4.8 на одном живом баге в собственном репозитории через один и тот же harness. GLM работала медленнее и дёргала больше инструментов, зато вышла дешевле ($0.41 против $0.81) и аккуратнее с проверкой, тогда как Opus оставил ошибки ^[8] типов, которые тесты пропустили. На бенчмарке GDPval-AA про реальную оплачиваемую работу она встала ^[9] на третье место с 1524 Elo, позади только Claude Fable 5 и Opus 4.8 и вровень с GPT-5.5, при цене $1.40/$4.40 за миллион токенов. Картинка не идеальная, на сложных длинных задачах Opus всё ещё заметно отрывается.

Artificial Analysis Intelligence Index (29 Jun '26).png

Sakana AI показала ^[10] Fugu, модель, которая дирижирует пулом чужих топовых моделей (Gemini 3.1 Pro, Opus 4.8, GPT-5.5) через один API. Идея прямо продаётся как страховка от экспортных ограничений: если один провайдер отрубает доступ, оркестратор маршрутизирует вокруг него. Звучит красиво, но к релизу сразу прилетело. Paper здесь ^[11]. Эли Бакуш из Hugging Face и другие разобрали ^[12] Fugu как router поверх заранее спланированного многошагового workflow: базлайны анонимизированы под “Model A/B/C”, а главное, нет отчёта по токенам и стоимости, хотя для оркестрации в духе best-of-N это половина правды. По собственной таблице Sakana Fugu Ultra обгоняет Opus 4.8 и заявляет паритет с закрытыми Fable 5 и Mythos, которых в пул как раз не пускают.

OpenAI на этой неделе залезла на уровень ниже самих моделей. Вместе с Broadcom компания представила ^[13] Jalapeño, свой первый чип под инференс LLM. Заявка дерзкая: от первого дизайна до tape-out (готовности чипа к производству) за девять месяцев, что OpenAI называет самым быстрым циклом разработки ASIC в истории высокопроизводительных полупроводников, и часть работы ускорили собственными моделями. Партнёрство с Broadcom анонсировали ещё в октябре 2025, деплой обещают уже в 2026 на гигаваттных масштабах. Когда владеешь и моделями, и чипами, и дата-центрами, каждый слой можно затачивать под одну цель и гонять собственный инференс дешевле.

В тот же день Qualcomm объявила ^[14] о покупке Modular, компании Криса Латтнера (создателя LLVM и языка Swift). Modular делает софтверный слой под чипами: стек гоняет модели по CPU, GPU, NPU и кастомным ASIC без переписывания под каждый ускоритель, ровно тот уровень, который пытается обойти монополию CUDA от NVIDIA. Латтнер пообещал, что язык Mojo всё равно откроют в этом году, но комьюнити нервничает: нейтральный рантайм под крылом производителя чипов уже не такой нейтральный. Reuters оценил сделку примерно в $3.92 миллиарда, официально сумму не раскрыли.

Anthropic запустила ^[15] Claude Tag и теперь Claude живёт прямо в Slack: его можно тегнуть в тред и делегировать задачу, как живому коллеге, а права и память ^[16] привязаны к каналам, которые открыл админ. Внутри Anthropic уже 65% кода продуктовой команды пишет внутренняя версия этой штуки. Андрей Карпаты назвал ^[17] это третьим большим переосмыслением интерфейса LLM: сначала сайт, потом десктоп-приложение, теперь постоянный асинхронный агент с правами и контекстом на всю организацию. Скептики, правда, тут же спросили: если Claude сам себя тегает и сам себе пишет, зачем в этой схеме вообще Slack.

Google перевёл ^[18] Interactions API в GA и сделал его основным интерфейсом для моделей и агентов. В коробке Managed Agents с дефолтным агентом Antigravity, который поднимает изолированную Linux-песочницу прямо по API и сам крутит цикл “подумал, выполнил код, посмотрел результат”, плюс флаг background для долгих задач, переживающих обрыв HTTP. По сути это первоклассный ответ на вопрос “где живёт агент и что ему можно”, встроенный прямо в дефолтный способ дёргать Gemini вместо отдельного продукта.

Databricks выложила ^[19] в открытый доступ Omnigent, который Матей Захария (CTO Databricks и один из авторов Apache Spark) прямо называет “мета-харнессом, харнессом над харнессами”. Раз харнессов теперь много, кто-то должен сидеть над ними: Omnigent оборачивает Claude Code, Codex, Pi и ваших собственных агентов в общий слой, где их можно комбинировать в одной сессии, навешивать политики и бюджеты не через промпт, а на уровне рантайма, и шарить живую сессию с коллегами по ссылке. Аргумент Захарии тот же, что когда-то вытащил MCP: слой должен быть открытым, иначе экосистема о нём не договорится.

Поверх всего этого зоопарка стоит вопрос, которым неделя началась у METR: а мы вообще умеем это мерить. Самый большой на сегодня аудит ^[20] судей-LLM (моделей, которых ставят оценивать ответы других моделей) прогнал 21 судью от девяти провайдеров на ~541 000 суждений и показал неприятное. Привычная метрика “точного совпадения” завышает согласие судьи с человеком, а если перейти на честную каппу Коэна (поправку на случайные совпадения), согласие проседает на 33–41 пункт на MT-Bench, и рейтинги судей скачут до 14 позиций. Многие команды гоняют такие модели-судьи как внутреннюю инфраструктуру оценки. Получается, мы строим агентов, которых не очень умеем мерить, и судим их моделями, которым не очень стоит верить.

Оставайтесь любопытными.

Пишу об искусственном интеллекте ^[21], языковых моделях и инструментах для разработчиков. Тестирую модели и сервисы на реальных задачах, а выводами делюсь в телеграм-канале ^[22].

Автор: xonika9

Источник ^[23]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/32426

URLs in this post:

[1] Оригинал статьи здесь: https://gotacat.dev/blog/weekly-ai-hallucinations-claude-tag-alibaba-distillation-gpt-5-6-jalapeno

[2] показала: https://openai.com/index/previewing-gpt-5-6-sol/

[3] намерила: https://metr.org/blog/2026-06-26-gpt-5-6-sol/

[4] обвинила: https://www.cnbc.com/2026/06/24/anthropic-alibaba-distillation-campaign.html

[5] Z.ai: http://Z.ai

[6] разбирал: https://gotacat.dev/blog/weekly-ai-hallucinations-spacex-cursor-glm-5-2-midjourney

[7] прогнала: https://x.com/cline/status/2069171146994729078

[8] ошибки: http://www.braintools.ru/article/4192

[9] встала: https://artificialanalysis.ai/articles/glm-5-2-is-the-new-leading-open-weights-model-on-the-artificial-analysis-intelligence-index

[10] показала: https://sakana.ai/fugu-release/

[11] здесь: https://arxiv.org/abs/2606.21228

[12] разобрали: https://x.com/eliebakouch/status/2068939729811468503

[13] представила: https://openai.com/index/openai-broadcom-jalapeno-inference-chip/

[14] объявила: https://www.modular.com/blog/qualcomm-to-acquire-modular

[15] запустила: https://www.anthropic.com/news/introducing-claude-tag

[16] память: http://www.braintools.ru/article/4140

[17] назвал: https://x.com/karpathy/status/2069547676849557725

[18] перевёл: https://blog.google/innovation-and-ai/technology/developers-tools/interactions-api-general-availability/

[19] выложила: https://www.databricks.com/blog/introducing-omnigent-meta-harness-combine-control-and-share-your-agents

[20] аудит: https://arxiv.org/abs/2606.19544

[21] интеллекте: http://www.braintools.ru/article/7605

[22] телеграм-канале: https://t.me/+D2V20JNpJV1kMzEy

[23] Источник: https://habr.com/ru/news/1053458/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1053458

Нажмите здесь для печати.