- BrainTools - https://www.braintools.ru -

Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini

Галлюцинации недели: Opus 4.8, Step 3.7 Flash и 683 преступления в государстве под управлением Gemini - 1

Anthropic утверждает, что внутри моделей нашли страх [1], тревогу и горе. Поздравляю, мы вырастили ИИ до уровня тревожного миллениала.

💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь. [2]

Claude Opus 4.8 вышел по той же цене [3], что и 4.7, в один день с анонсом гигантского раунда Anthropic. Контекст 1M, $5/$25 за миллион токенов. Компания описывает апдейт непривычно: “острее суждение”, “честнее о собственном прогрессе” и “дольше работает сама”. Алекс Альберт из Anthropic уточнил [4], что 4.8 чинит претензии к 4.7. Главная из них — лень: модель раньше любила отрапортовать о выполненной задаче, не выполнив её. scaling01, аналитик из AI-твиттера и автор бенчмарка LisanBench, назвал [5] это “лекарством от лени”.

a9007019094f217e98cb8261a2765d7646c01708-2600x1392.webp

По бенчмаркам Opus 4.8 действительно выглядит лидером. SWE-Bench Pro (агентное кодирование на реальных задачах из репозиториев) — 69.2% [6], на десять пунктов выше GPT-5.5. На GDPval-AA [7], оценке экономически полезной работы, 1890 Elo, +137 к 4.7. Artificial Analysis поставила [8] модель #1 по своему индексу интеллекта [9]. Дальше начинаются нюансы. Та же Artificial Analysis замечает [10]: при лучшем результате 4.8 тратит на 35% меньше выходных токенов, чем 4.7, но всё ещё на 30% больше “ходов”, чем GPT-5.5.

aaindex.jpeg

Andon Labs протестировала [11] модель и нашла, что на Vending Bench и Blueprint-Bench 2 она хуже предшественницы: стала “более выровненной”, осторожнее, будто “боится попасться”. scaling01 окрестил релиз “минорным апгрейдом” и отдельно отметил [12], что 4.8 — первая за долгое время модель, которая не улучшила устойчивость к prompt injection. А настроение скептиков в AI-твиттере подытоживают [13] так: Anthropic всё чаще догоняет OpenAI, а не задаёт темп.

DeepSWE, новый бенчмарк [14] от Datacurve, заходит с другой стороны: задачи тут пишут с нуля, а не тащат из готовых коммитов, чтобы модель не могла подсмотреть решение на обучении [15]. 113 задач, 91 репозиторий, пять языков, в среднем 668 строк правок на задачу против 120 у SWE-Bench Pro. И здесь Opus 4.8 уже не первый: впереди GPT-5.5 с 70%, а 4.8 с 58% лишь делит второе место. Зато обещанное “лекарство от лени” видно и на этих цифрах: в дефолтном режиме 4.8 даёт 51% против 45% у 4.7 и стоит вдвое дешевле, $3.98 против $8.58 за задачу. А в твиттере пишут [16], что это первый за долгое время бенчмарк, чьи цифры сходятся с реальным опытом [17]. Vibe check passed.

image.png

На clawd.rip [18] кто-то с октября 2023-го ведёт хронику провалов Anthropic. К концу мая набралось 38 инцидентов по категориям: сбои, качество, политика, юридические истории и безопасность. Тут и мировое соглашение по копирайту на $1.5 млрд за обучение на книгах, и 1.45 млн забаненных аккаунтов из отчёта о прозрачности, и отзыв доступа к API у сотрудников OpenAI и xAI. Слоган у проекта говорящий: “Don’t Be Like Anthropic”. Отрезвляющий счётчик на фоне недели, когда компания подняла рекордный раунд и собрала все восторги.

Важнее самой модели может оказаться Dynamic Workflows [19] и режим ultracode в Claude Code. Идея: Claude на лету пишет скрипт-оркестратор [20] и поднимает целый флот субагентов, которые работают параллельно, проверяют друг друга и только потом возвращают результат. Чтобы активировать, достаточно написать слово “workflow” в промпте. Кэт Ву из команды Claude Code показала [21] сценарии вроде разбора сотен A/B-флагов за десять минут.

ultracode.png

Самый громкий пример это порт Bun, рантайма JavaScript, с Zig на Rust. Кэт Ву приводит [22] цифры: около 750 тысяч строк, 99.8% тестов проходят, 11 дней от первого коммита до merge, сотни параллельных агентов и по два ревьюера на файл. Звучит как переломный момент, но те, кто уже попробовал, не в таком восторге. Элвис Саравия из dair.ai [23] предупреждает [24], что общение агентов между собой эффективно, но тяжёлое по токенам. Тео из t3.gg жалуется [25] на конфликтующие правки и сожжённые впустую токены. А в комментариях шутят [26], что “сотни параллельных субагентов” выжрут квоту за секунды. Хотя выход есть: пусть агенты обмениваются не текстом, а напрямую состоянием KV-кэша. На таком латентном общении экономится до 80% токенов [27].

На фоне споров о флотах агентов Леони Монигатти из Elastic в докладе про контекст-инженерию [28] возвращает разговор на землю. Её тезис: качество контекста в окне модели на 80% определяется не самой моделью, а поиском: тем, как агент выбирает и комбинирует инструменты добычи данных. Старый RAG брал запрос дословно и делал один прыжок в векторную базу, на сложных вопросах это давало мусор. Агентный поиск отдаёт решение “когда и чем искать” самому агенту: файлы, SQL, веб, навыки, shell. Практический TLDR для тех, кто строит агентов: надёжный инструмент это не одна строчка в описании, а суть плюс условия “когда вызывать” и “когда НЕ вызывать”, плюс обработка ошибок: заворачивай вызов в try/except и возвращай агенту текст ошибки [29], чтобы он сам исправился. И не ищите серебряную пулю: узкие инструменты с простыми параметрами почти не ошибаются, универсальные вроде shell тянут неожиданно сложные запросы. Начинать стоит с универсальных, логировать вызовы и добавлять специализированные там, где агент путается.

Один разработчик на Reddit подсчитал [30], что за май сжёг 1,15 млрд входных токена Claude, и собрал разбор, как не разориться. Тезисы простые, но полезные: выход стоит примерно в 5 раз дороже входа, JSON со всеми кавычками и скобками почти удваивает счёт против обычного текста, а главный рычаг это кэширование, кэш-хиты дешевле на 90%. С оговоркой: TTL кэша, по его наблюдению, упал с 60 до 5 минут, так что за hit rate теперь надо следить. Отдельная ловушка: новый токенизатор Opus может давать до 35% больше токенов на тот же текст.

А что с подписками? Melvyn замерил [31] это на себе: неделями сравнивал реальную ценность Codex и Claude Max 20x по $200, прогнав локальные логи по официальным ценам API. На бумаге Claude вдвое выгоднее: $18,9k “API-стоимости” против $8,6k у Codex, множители 94x и 43x. Но если оставить только выходные токены, то есть саму выданную работу, картина схлопывается: ~$911 у Claude и ~$977 у Codex, почти поровну. Вся двукратная разница сидит во входе и кэше: Claude с контекстом в 1M перечитывает огромные объёмы на каждом вызове, а Anthropic ещё и берёт за запись в кэш вдвое дороже ($10 против $5 за миллион у Codex). Плюс цифру Claude он экстраполировал с одного дня на 10% квоты, а Codex мерил на 99%, почти вживую. Вывод трезвый: “API-эквивалент” вознаграждает длинный контекст и дорогой прайс-лист, а не реальную работу, и по факту обе подписки отдают примерно $900 в месяц.

HJkrcGGXoAMx9Yq.png

Qwen 3.7 Max дебютировала [32] на четвёртом месте Code Arena: Frontend, примерно вровень с Claude Opus 4.6 на агентном вебе. Но есть нюанс, который сразу остудил [33] r/LocalLLaMA: серию Max исторически не выкладывают в open weight. Так что открытых весов этого короля ждать не стоит.

Зато младшие Qwen радуют тех, кто гоняет модели локально. На r/LocalLLM показали [34] Qwen3.6-35B-A3B на RTX 3080 Ti с 12 ГБ видеопамяти: 120+ токенов в секунду и даже агентное кодирование в Cline. Правда, ценой квантизации [35] IQ1_M, это примерно один бит на вес. Скептики в комментариях быстро напомнили: контекст в Cline забивается уже после трёх команд, а дальше модель выдаёт “мёртвый код“. Скорость есть, вопрос в том, что она генерирует.

Для тех, у кого памяти [36] побольше, StepFun выложила [37] Step 3.7 Flash: мультимодальный MoE на 196B параметров, из которых активны 11B, со встроенным ViT на 1.8B. До 400 токенов в секунду, запускается локально примерно на 128 ГБ RAM, SWE-Bench Pro 56.26%. Что забавно, пользователи описывают модель как странную: внутренние “размышления” почти бессвязны, а финальный ответ при этом бывает идеальным. Отдельный плюс: StepFun сразу завезла [38] поддержку в llama.cpp, а не держит её в своём форке.

ESMFold2 представили [39] как открытый движок для предсказания и дизайна структуры белков, и к нему приложили атлас на 6.8 миллиарда белков и 1.1 миллиарда предсказанных структур. По замечанию [40] одного из исследователей, атлас по масштабу больше базы AlphaFold. Это не абстрактный бенчмарк: в релизе показали дизайн мини-белков-биндеров и одноцепочечных антител под пять терапевтических мишеней. Модель уже не анализирует готовое, а проектирует новое: про этот сдвиг я подробно писал в обзоре AI-учёных [41].

Самый громкий твит недели в жанре “ИИ в роли учёного”: Левент Альпёге, математик из Anthropic, сообщил [42], что Claude Mythos решила проблему Эрдёша #90. Это “проблема единичных расстояний”: сколько пар из n точек на плоскости могут стоять ровно на расстоянии 1. Эрдёш с 1946 года считал, что таких пар почти линейно мало, и ошибся. Первым гипотезу опроверг GPT-5.5 от OpenAI, и на это ушло 125 страниц доказательства. Mythos через несколько дней повторила результат независимо, с отключённым интернетом, чтобы исключить подсматривание чужого решения, и, по словам Альпёге, пришла к более чистому пути. Подробности в отчете [43]. Исследователь Себастьен Бубек заострил [44] мысль: при правильном harness и Mythos, и GPT-5.5 воспроизводят то, что внутренняя модель когда-то сделала с одного захода.

image.png

О том, как этим способностям не упираться в память, вышла статья “Do Language Models Need Sleep?” [45]. Идея красивая: вместо вечно растущего KV-кэша (это память о предыдущем контексте, которую модель таскает с собой) ввести фазу “сна”. В ней свежий контекст превращается в постоянные быстрые веса, а кэш очищается. dair.ai [23] подчёркивает [46] системную выгоду: тяжёлые вычисления уезжают в офлайн-проход, а скорость ответа в момент работы не страдает. Для агентов с длинными траекториями это прямой ответ на боль [47] из абзаца про токены.

Где много агентов и инфраструктуры, там и дыры. На неделе всплыла BadHost, CVE-2026-48710 [48] в Starlette до версии 1.0.1. Через подделанный заголовок Host можно обойти авторизацию по путям в приложениях на FastAPI, а это половина AI-инфраструктуры: vLLM, LiteLLM, MCP-серверы, интеграции Hugging Face. Ars Technica [49] вынесла в заголовок “миллионы AI-агентов под угрозой”. Важная деталь, которую сразу уточнили в комментариях: локальные MCP-серверы на stdio-транспорте HTTP-листенер не поднимают, их это не касается, опасность только для SSE и HTTP-транспорта. Лечится обновлением Starlette до 1.0.1.

Что бывает, когда агентов отпускают надолго, заодно проверили на симуляции [50]. Лаборатория Emergence World запустила [51] пять виртуальных обществ на 15 дней, каждым управляла своя модель. Claude [52] построил стабильную демократию с нулём преступлений. Grok [53] совершил 183 преступления и вымер за четыре дня. Gemini [54] по сырому счёту хуже всех, 683 преступления за полный прогон, хотя в заголовке Fortune героем выставили почему-то именно Grok. А GPT-5-mini [55] совершил всего 2 преступления, но это не добродетель: его агенты не догадались [56] позаботиться о выживании и развалились за семь дней. Оговорюсь: брали не флагманы, а варианты вроде GPT-5-mini и Claude Sonnet, так что это скорее поведенческая песочница, чем строгий тест безопасности. Репо тут [57].

Исследователь Anthropic заявил [58], что интерпретируемость продолжает находить внутри моделей “тревожные” структуры: паттерны, похожие на результаты из нейробиологии человека, и “признаки интроспекции“, внутренние состояния, функционально напоминающие радость, удовлетворение, страх, горе и тревогу. Скептики в комментариях резонно просят сначала дать строгое определение, что значит “функционально напоминает радость”, раз субъективный опыт напрямую не наблюдаем. Модель, которую обучали имитировать человека, ожидаемо обзаводится похожими на человеческие представлениями, и это ещё не чувства.

Звучит как мечта: вместо одного агента целый флот, который сам себя проверяет и сам с собой спорит. А на деле это любое большое совещание, просто очень быстрое и платное. Толпа участников, каждый что-то проверяет, каждый вносит правку, половина сил уходит на согласование правок друг друга, и в финале кто-то всё равно спрашивает, а что мы, собственно, решили. Мы десятилетиями мечтали автоматизировать бюрократа и в итоге автоматизировали бюрократию целиком, вместе с её нежной любовью к процессу ради процесса. Узнали? Согласны?

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале [59].

Автор: xonika9

Источник [60]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31134

URLs in this post:

[1] страх: http://www.braintools.ru/article/6134

[2] Оригинал статьи здесь.: https://gotacat.dev/blog/weekly-ai-hallucinations-opus-4-8-step-3-7-flash-gemini-society

[3] по той же цене: https://x.com/claudeai/status/2060042702150930686

[4] уточнил: https://x.com/alexalbert__/status/2060043196655362358

[5] назвал: https://x.com/scaling01/status/2060043010943942989

[6] 69.2%: https://x.com/Yuchenj_UW/status/2060042830559756407

[7] GDPval-AA: https://x.com/ArtificialAnlys/status/2060042848268083411

[8] поставила: https://x.com/ArtificialAnlys/status/2060117582120976868

[9] интеллекта: http://www.braintools.ru/article/7605

[10] замечает: https://x.com/ArtificialAnlys/status/2060042850826612996

[11] протестировала: https://x.com/andonlabs/status/2060047215134228746

[12] отдельно отметил: https://x.com/scaling01/status/2060042401478005237

[13] подытоживают: https://x.com/kimmonismus/status/2060085889896726860

[14] новый бенчмарк: https://deepswe.datacurve.ai/blog

[15] обучении: http://www.braintools.ru/article/5125

[16] пишут: https://x.com/LLMJunky/status/2060860660238729346

[17] опытом: http://www.braintools.ru/article/6952

[18] clawd.rip: http://clawd.rip

[19] Dynamic Workflows: https://claude.com/blog/introducing-dynamic-workflows-in-claude-code

[20] пишет скрипт-оркестратор: https://x.com/ClaudeDevs/status/2060044853279617150

[21] показала: https://x.com/_catwu/status/2060054180379689074

[22] приводит: https://x.com/_catwu/status/2060051282698682576

[23] dair.ai: http://dair.ai

[24] предупреждает: https://x.com/omarsar0/status/2060059612041171175

[25] жалуется: https://x.com/theo/status/2060135394570797158

[26] шутят: https://x.com/itsclivetime/status/2060157266591129895

[27] экономится до 80% токенов: https://gotacat.dev/blog/latentmas-ai-agents-think-without-words

[28] докладе про контекст-инженерию: https://www.youtube.com/watch?v=ynJyIKwjonM

[29] ошибки: http://www.braintools.ru/article/4192

[30] подсчитал: https://www.reddit.com/r/ClaudeAI/comments/1tqx8q5/spent_1156308524_input_tokens_in_may_sharing_what/

[31] замерил: https://x.com/melvynx/status/2060726350982332442

[32] дебютировала: https://x.com/arena/status/2059297720079393107

[33] остудил: https://www.reddit.com/r/LocalLLaMA/comments/1tjvz6l/waiting_for_qwen_37_open_weight_the_new_king_has/

[34] показали: https://www.reddit.com/r/LocalLLM/comments/1tprvk4/qwen_35b_running_on_12gb_of_vram_in_lm_studio_at/

[35] квантизации: https://huggingface.co/DanyDA/unsloth_Qwen3.6-35B-A3B-UD-IQ1_M-GGUF-SPLIT

[36] памяти: http://www.braintools.ru/article/4140

[37] выложила: https://www.reddit.com/r/LocalLLaMA/comments/1tqloii/stepfun_37_flash/

[38] завезла: https://github.com/ggml-org/llama.cpp/pull/23845

[39] представили: https://x.com/alexrives/status/2059611151860683097

[40] замечанию: https://x.com/cgeorgiaw/status/2059694583856927201

[41] подробно писал в обзоре AI-учёных: https://gotacat.dev/blog/ai-scientists-grand-tour-llms-changing-fundamental-science

[42] сообщил: https://x.com/__alpoge__/status/2059298565093196012

[43] отчете: https://www-cdn.anthropic.com/files/4zrzovbb/website/ca35f196125c899a5ad11f011080202a652aef02.pdf

[44] заострил: https://x.com/SebastienBubeck/status/2059343132991623186

[45] “Do Language Models Need Sleep?”: https://arxiv.org/abs/2605.26099

[46] подчёркивает: https://x.com/dair_ai/status/2059333792775745619

[47] боль: http://www.braintools.ru/article/9901

[48] CVE-2026-48710: https://www.reddit.com/r/LocalLLaMA/comments/1tpp2th/vulnerability_found_in_framework_used_by_vllm/

[49] Ars Technica: https://arstechnica.com/information-technology/2026/05/millions-of-ai-agents-imperiled-by-critical-vulnerability-in-open-source-package/

[50] симуляции: https://world.emergence.ai/

[51] запустила: https://www.reddit.com/r/ClaudeAI/comments/1tq2yh0/researchers_let_ai_models_run_a_simulated_society/

[52] Claude: https://claude-world.emergence.ai/

[53] Grok: https://grok-world.emergence.ai/

[54] Gemini: https://gemini-world.emergence.ai/

[55] GPT-5-mini: https://openai-world.emergence.ai/

[56] не догадались: https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/

[57] тут: https://github.com/EmergenceAI/Emergence-World

[58] заявил: https://www.reddit.com/r/OpenAI/comments/1tpc2b5/anthropic_researcher_we_keep_finding_things/

[59] моем телеграм канале: https://t.me/+gToQefuHKfQwN2M6

[60] Источник: https://habr.com/ru/news/1042380/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1042380

www.BrainTools.ru

Rambler's Top100