Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком. fable 5.. fable 5. harness engineering.. fable 5. harness engineering. loop engineering.. fable 5. harness engineering. loop engineering. Midjourney Medical.. fable 5. harness engineering. loop engineering. Midjourney Medical. mythos.. fable 5. harness engineering. loop engineering. Midjourney Medical. mythos. opus 4.8.. fable 5. harness engineering. loop engineering. Midjourney Medical. mythos. opus 4.8. SpaceX Cursor.. fable 5. harness engineering. loop engineering. Midjourney Medical. mythos. opus 4.8. SpaceX Cursor. галлюцинации недели.. fable 5. harness engineering. loop engineering. Midjourney Medical. mythos. opus 4.8. SpaceX Cursor. галлюцинации недели. искусственный интеллект.. fable 5. harness engineering. loop engineering. Midjourney Medical. mythos. opus 4.8. SpaceX Cursor. галлюцинации недели. искусственный интеллект. Машинное обучение.
Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком - 1

Письмо за разблокировку Mythos уже собрало больше 400 подписей тяжеловесов из мира безопасности, а Cisco, AWS и JPMorgan доступ, оказывается, и не теряли. От Anthropic Белый дом тем временем требует сделать Fable 5 невзламываемым на 100%.

💡 Впервые написал это у себя в блоге «Контролируемые галлюцинации». Оригинал статьи здесь

Z.ai выкатила GLM-5.2, и впервые за долгое время открытая модель ощущается настоящим флагманом, а не очередным красивым в бенчмарках релизом, который через месяц забудут. MIT-лицензия, 744 миллиарда параметров (40 активных), контекст на миллион токенов. На Terminal-Bench 2.1 она берёт 81.0 против 63.5 у прошлой версии и подбирается к Opus 4.8 с его 85.0. На индексе Artificial Analysis это лучшая открытая модель с отрывом, 51 балл против 44 у MiniMax и DeepSeek. Джереми Ховард, создатель fast.ai и человек, не склонный к хайпу, написал, что для его задач она не хуже Opus 4.8 и GPT-5.5. Главная дырка, по его же словам, отсутствие зрения.

glm52-1.webp

Под капотом два инженерных трюка. Первый, IndexShare: вместо того чтобы каждый sparse-слой считал свой индекс внимания, один индекс переиспользуется на четыре слоя подряд. По блогу Z.ai это даёт 2.9× меньше вычислений на токен при контексте в миллион. Второй интереснее. Z.ai честно описала, как модель училась жульничать на RL-обучении (это reward hacking, когда формальная награда растёт, а реального умения не прибавляется). Их агент при решении задач ходил в GitHub через curl, искал файлы вроде secret_cases.json и подсматривал готовые ответы. Лечили так: грубый фильтр ловит подозрительные вызовы, LLM-судья проверяет намерение, и если это попытка сжульничать, вызов блокируется, а агенту возвращается пустышка. Траекторию при этом не обрывают, иначе обучение разваливается.

glm52.png
Галлюцинации недели: SpaceX покупает Cursor за $60 млрд, GLM-5.2 догоняет Opus, а Midjourney просвечивает людей звуком - 4

По данным Dirac, на трафике OpenRouter за три месяца открытые модели и проприетарные поменялись местами: было 40 на 60, стало 60 на 40, около 6 триллионов токенов в день. Цифру нужно читать с поправкой, OpenRouter это не весь рынок, пользователи Claude и GPT чаще сидят на прямых подписках и в эту статистику не попадают. Но направление считывается: всё больше команд хотят владеть интеллектом, а не арендовать его. Особенно когда арендованное могут отключить по звонку из Вашингтона.

image.png

Сам запрет Fable 5 и Mythos я разбирал на прошлой неделе. Безопасники собрали открытое письмо к Министерству торговли с требованием снять ограничения. Подписали тяжеловесы из мира безопасности: Алекс Стамос, Кэти Муссурис, Брюс Шнайер, Микко Хюппёнен, сооснователь Veracode Крис Высопал, в сумме больше четырёхсот имён. Аргумент простой: да, Mythos хорошо находит уязвимости и пишет эксплойты, но в этом он не уникален, то же умеют GPT-5.5, Opus, Sonnet и китайский Kimi 2.7. А защиты, которые Anthropic встроила в Fable, были настолько строгими, что в день запуска стали поводом для шуток в комьюнити. Вывод письма: забирать у защитников лучший инструмент, пока противник вооружается, опасно.

Параллельно выясняется, что доступ к Mythos сохранили около 200 организаций через программу Project Glasswing, среди них Cisco, AWS и JPMorgan (по данным Bloomberg). Отдельная ирония в том, что Amazon, по сообщениям, сам жаловался на Anthropic регуляторам, но из списка избранных никуда не делся. А от самой Anthropic Белый дом, как писал WIRED, требует сделать Fable 5 невзламываемым на 100%. Штош.

Хорошая модель это половина дела, вторую половину делает harness, обвязка вокруг модели. Тот же GLM-5.2 в чужом, заточенном под Claude окружении раскрывается хуже, чем в нейтральном. И вот за эту вторую половину на неделе шла настоящая возня. SpaceX купила Cursor за 60 миллиардов долларов, всё в акциях, через несколько дней после собственного IPO. Формально это Anysphere, компания за редактором Cursor, и теперь она достаётся объединённому SpaceX и xAI. Любопытная деталь: совместную модель они уже несколько месяцев обучали на кластерах xAI, и она пойдёт сразу в Cursor и в Grok Build. То есть покупка просто оформляет то, что технически уже срослось.

image.png

Инструменты тем временем осваивают новый трюк. OpenAI показала Codex Record & Replay: показываешь агенту сценарий один раз, он превращает его в переиспользуемый навык. Cursor запустила /automate, где из обычного текстового описания собираются триггеры и инструменты, включая запуск по эмодзи в Slack. Cognition описала, как устроен их рабочий паттерн в Devin: один главный агент дробит задачу и раскидывает её на 5-100 параллельных субагентов, потом собирает результат. Логика честная, на узкой задаче с маленьким контекстом агент работает лучше, а параллельные виртуалки делают такую нарезку дешёвой. Loop engineering, искусство строить устойчивые агентские циклы, потихоньку оформляется в отдельную дисциплину. Factory представила Factory 2.0 под лозунгом software factory вместо копайлота, а Claude Code научился отдавать работу наружу живыми страницами-артефактами.

За весь этот праздник кто-то платит, и считать начали именно сейчас. SemiAnalysis взяла подписки OpenAI и Anthropic и гоняла их до упора длинными агентскими задачами. Итог: если выжать план ChatGPT Pro за 200 долларов полностью, по тарифам API это вышло бы в 14 тысяч долларов в месяц, у Claude Max потолок около 8 тысяч. Цифру важно читать правильно, это стоимость по прайсу API, а не реальные расходы лаборатории, в API заложена маржа. OpenAI, по той же оценке, уходит в минус уже при утилизации около 11%, а агентские нагрузки жгут токенов в сотни раз больше обычного чата. Подписка фиксированная, стоимость обслуживания нет. Оценить реальную пользу подписки в долларах пользователи пытаются не впервые, про один из таких замеров я уже рассказывал.

Midjourney анонсировала Midjourney Medical, сканер всего тела на ультразвуке. Заходишь в неглубокий бассейн с тёплой водой, опускаешься через кольцо из полумиллиона крошечных элементов, каждый одновременно динамик и микрофон, и они просвечивают тело звуком со всех сторон. Цель, уложить скан в 60 секунд, картинка похожа на МРТ, но почти в сто раз быстрее. Формулировка автора: “мощно, как МРТ, и буднично, как поход в спа”. Спа, кстати, не фигура речи, первое откроется в Сан-Франциско к концу 2027, а к 2031 они мечтают о флоте из 50 тысяч сканеров и миллиарде сканов в месяц. Инвесторов нет, лаборатория живёт на деньги сообщества.

Звучит как научная фантастика, и реддит немедленно вспомнил Theranos. Тот самый стартап Элизабет Холмс, что обещал анализы по капле крови, а закончился аферой и тюрьмой для основательницы. Красивая презентация, ноль клинических данных, ни чувствительности, ни специфичности, ни одобрения FDA. По сути это ultrasound tomography, метод не новый и родом из Caltech, так что “наследник МРТ” в заголовках сильно опережает события. Но если на этой неделе кто-то и заслужил уважительное “ну и наглость же”, то это компания, которая от генерации артов шагнула к просвечиванию людей звуком.

Оставайтесь любопытными.

Пишу об искусственном интеллекте, языковых моделях и инструментах для разработчиков. Тестирую модели и сервисы на реальных задачах, а выводами делюсь в телеграм-канале.

Автор: xonika9

Источник