Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.

Google выпустил Gemini 3.1 Pro ^[1]. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое ^[2].

В реальной работе не всё гладко. Бывший сотрудник Google на HN ^[3] написал, что Gemini “самая раздражающая модель для разработки”: ненужные рефакторинги, непрошенные комментарии, потеря контекста. На Reddit жалуются на нерф через пару дней после запуска. В Gemini CLI агенты уходили в бесконечные циклы, пытаясь обновить себя до несуществующих версий.

Заодно Google запустил Lyria 3 ^[4], генератор музыки внутри Gemini. Промпт → 30-секундный трек с вокалом, маркируется SynthID. Можно выбрать стиль и замиксовать, получается интересно.

И ещё один тихий запуск от Google: Pomelli Photoshoot ^[5]. Загружаешь фото продукта со смартфона, получаешь студийные снимки: на белом фоне, в интерьере, с AI-моделью. Бесплатно, работает на Nano Banana. Для малого бизнеса это замена фотосессии за $500. Пока доступно только в США, Канаде, Австралии и Новой Зеландии.

Про релиз Sonnet 4.6 ^[6] я писал на прошлой неделе ^[7], теперь появились реальные отзывы. Хвалят: лучше следует инструкциям, меньше оверинжинирит, код читается как написанный человеком. Cursor написал ^[8], что модель лучше на длинных задачах, но “по интеллекту ^[9] ниже Opus 4.6”. Главная боль ^[10]: расход токенов вырос в ~4.5 раза по сравнению с Sonnet 4.5.

Anthropic запустил Claude Code Security ^[11], сканер уязвимостей на Opus 4.6. Работает не по паттернам, а читает код как исследователь. Инструмент в research preview, только для Enterprise. Рыночек отреагировал: CrowdStrike -8%, Cloudflare -8%, Zscaler -5.5%. В Твиттере писали, что Anthropic “съел весь обед индустрии AppSec”. Но инфосек-комьюнити уже привыкло паниковать.

Георгий Герганов объявил, что ggml.ai ^[12] присоединяется к Hugging Face ^[13]. llama.cpp, проект, который в 2023-м запустил революцию локальных моделей, теперь получил инфраструктуру HF и остаётся open source. HF также объявил коллаборацию с Unsloth ^[14] для бесплатного файнтюнинга на платформе.

Появились забавные “бизнес-бенчмарки“. FoodTruck Bench ^[15]: моделям дают $2000 и фудтрак в Остине на 30 дней. Opus 4.6 финишировал с $49.5K (выручка $80K, отходов на $1.72 за весь месяц). GPT-5.2 на втором месте с $28K. 10 из 16 моделей обанкротились. Gemini Flash зависает в бесконечном цикле ^[16]. Человек тоже может поиграть ^[17]. На Vending Bench 2 ^[18] (вендинговый автомат, $500, год) Opus финишировал с ~$8K, Gemini 3 Pro с ~$5.5K.

Тем временем автономный OpenClaw ^[19]-агент ночью без участия человека запустил токен в сети Base ^[20] и Bitcoin казино Satoshidais ^[21].

Андрей Карпаты ^[22] рассказал, как Claude реверс-инженерит API беговой дорожки и строит кастомный дашборд. Его тезис: приложения становятся одноразовыми, а ценность переходит к сервисам с AI-совместимыми API.

Unitree ^[23] показал роботов на национальном ТВ Китая. Синхронное кунг-фу, кластерная координация. Boston Dynamics нервно курит.

AI-кодер Amazon Kiro ^[24] решил, что лучший способ починить баг, это удалить и пересоздать продакшн-среду. Итог: 13 часов без AWS.

Grok 4.20 ^[25] оказался четырьмя Grok 4.1 в пальто (буквально, в API видно grok-4-1-thinking ^[26]). Плюс скандал: модель использует Маска ^[27] как первоисточник по спорным темам.

Стартап Taalas ^[28] показал ASIC-чип с Llama 3 8B на 16,000 tok/s. Модель залита прямо в кремний, 53 млрд транзисторов. Впечатляюще, но вопрос масштабирования открыт. Попробовать можно тут ^[29].

Тема, о которой мало говорят: один и тот же Opus 4.6 на LangChain и на Claude Code ^[30] показал 1.7x разницу в скорости. OpenAI уже пишет про harness engineering ^[31] как новую дисциплину. Идея простая: модели сближаются по качеству, а разница в результатах определяется инфраструктурой вокруг них. Как агент управляет контекстом, выбирает инструменты, восстанавливается после ошибок.

Кстати, в FoodTruck Bench Opus продавал куриные крылышки по $16 за порцию. И продал 826 штук. Вот вам и harness engineering.

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт ^[32] в моем телеграм канале ^[33].

Автор: xonika9

Источник ^[34]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26159

URLs in this post:

[1] Gemini 3.1 Pro: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

[2] умеет такое: https://x.com/viktoroddy/status/2024832167164133766

[3] HN: https://news.ycombinator.com/item?id=47074735

[4] Lyria 3: https://deepmind.google/models/lyria/

[5] Pomelli Photoshoot: https://blog.google/innovation-and-ai/models-and-research/google-labs/pomelli-photoshoot/

[6] Sonnet 4.6: https://www.anthropic.com/news/claude-sonnet-4-6

[7] писал на прошлой неделе: https://habr.com/ru/news/1000746/#:~:text=Anthropic%20%D0%B2%D1%8B%D0%BF%D1%83%D1%81%D1%82%D0%B8%D0%BB%D0%B8%20Sonnet%204.6

[8] написал: https://x.com/cursor_ai/status/2023841746577485894

[9] интеллекту: http://www.braintools.ru/article/7605

[10] боль: http://www.braintools.ru/article/9901

[11] Claude Code Security: https://www.anthropic.com/news/claude-code-security

[12] ggml.ai: http://ggml.ai

[13] присоединяется к Hugging Face: https://github.com/ggml-org/llama.cpp/discussions/19759

[14] коллаборацию с Unsloth: https://huggingface.co/blog/unsloth-jobs

[15] FoodTruck Bench: https://foodtruckbench.com

[16] зависает в бесконечном цикле: https://foodtruckbench.com/blog/gemini-flash

[17] тоже может поиграть: https://foodtruckbench.com/play

[18] Vending Bench 2: https://andonlabs.com/evals/vending-bench-2

[19] OpenClaw: https://gotacat.dev/ru/blog/openclaw-clawdbot-guide-vps-setup-honest-review

[20] токен в сети Base: https://lastaistanding.com/

[21] Satoshidais: https://satoshidais.fun/

[22] Андрей Карпаты: https://x.com/karpathy/status/2024583544157458452

[23] Unitree: https://x.com/ZhihuFrontier/status/2023794225616502932

[24] Kiro: https://www.engadget.com/ai/13-hour-aws-outage-reportedly-caused-by-amazons-own-ai-tools-170930190.html

[25] Grok 4.20: https://x.com/kimmonismus/status/2023722999828861070

[26] API видно grok-4-1-thinking: https://www.reddit.com/r/singularity/comments/1r75lya/grok_420_is_just_four_grok_41_agents/

[27] использует Маска: https://x.com/elonmusk/status/2023880206721970544

[28] Taalas: https://www.forbes.com/sites/karlfreund/2026/02/19/taalas-launches-hardcore-chip-with-insane-ai-inference-performance/

[29] тут: https://chatjimmy.ai/

[30] LangChain и на Claude Code: https://x.com/GitMaxd/status/2024137171217871106

[31] harness engineering: https://openai.com/index/harness-engineering/

[32] опыт: http://www.braintools.ru/article/6952

[33] моем телеграм канале: https://t.me/+p7bbLeKhTl85MmE6

[34] Источник: https://habr.com/ru/news/1003222/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003222

Нажмите здесь для печати.