Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp. claude code security.. claude code security. Claude Sonnet 4.6.. claude code security. Claude Sonnet 4.6. FoodTruck Bench.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro. harness engineering.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro. harness engineering. hugging face.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro. harness engineering. hugging face. llama.cpp.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro. harness engineering. hugging face. llama.cpp. галлюцинации недели.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro. harness engineering. hugging face. llama.cpp. галлюцинации недели. искусственный интеллект.. claude code security. Claude Sonnet 4.6. FoodTruck Bench. gemini 3.1 pro. harness engineering. hugging face. llama.cpp. галлюцинации недели. искусственный интеллект. Машинное обучение.

Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.

Google выпустил Gemini 3.1 Pro. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое.

В реальной работе не всё гладко. Бывший сотрудник Google на HN написал, что Gemini “самая раздражающая модель для разработки”: ненужные рефакторинги, непрошенные комментарии, потеря контекста. На Reddit жалуются на нерф через пару дней после запуска. В Gemini CLI агенты уходили в бесконечные циклы, пытаясь обновить себя до несуществующих версий.

Заодно Google запустил Lyria 3, генератор музыки внутри Gemini. Промпт → 30-секундный трек с вокалом, маркируется SynthID. Можно выбрать стиль и замиксовать, получается интересно.

И ещё один тихий запуск от Google: Pomelli Photoshoot. Загружаешь фото продукта со смартфона, получаешь студийные снимки: на белом фоне, в интерьере, с AI-моделью. Бесплатно, работает на Nano Banana. Для малого бизнеса это замена фотосессии за $500. Пока доступно только в США, Канаде, Австралии и Новой Зеландии.

Про релиз Sonnet 4.6 я писал на прошлой неделе, теперь появились реальные отзывы. Хвалят: лучше следует инструкциям, меньше оверинжинирит, код читается как написанный человеком. Cursor написал, что модель лучше на длинных задачах, но “по интеллекту ниже Opus 4.6”. Главная боль: расход токенов вырос в ~4.5 раза по сравнению с Sonnet 4.5.

Anthropic запустил Claude Code Security, сканер уязвимостей на Opus 4.6. Работает не по паттернам, а читает код как исследователь. Инструмент в research preview, только для Enterprise. Рыночек отреагировал: CrowdStrike -8%, Cloudflare -8%, Zscaler -5.5%. В Твиттере писали, что Anthropic “съел весь обед индустрии AppSec”. Но инфосек-комьюнити уже привыкло паниковать.

Георгий Герганов объявил, что ggml.ai присоединяется к Hugging Face. llama.cpp, проект, который в 2023-м запустил революцию локальных моделей, теперь получил инфраструктуру HF и остаётся open source. HF также объявил коллаборацию с Unsloth для бесплатного файнтюнинга на платформе.

Появились забавные “бизнес-бенчмарки“. FoodTruck Bench: моделям дают $2000 и фудтрак в Остине на 30 дней. Opus 4.6 финишировал с $49.5K (выручка $80K, отходов на $1.72 за весь месяц). GPT-5.2 на втором месте с $28K. 10 из 16 моделей обанкротились. Gemini Flash зависает в бесконечном цикле. Человек тоже может поиграть. На Vending Bench 2 (вендинговый автомат, $500, год) Opus финишировал с ~$8K, Gemini 3 Pro с ~$5.5K.

2026-02-24_18-51.png

Тем временем автономный OpenClaw-агент ночью без участия человека запустил токен в сети Base и Bitcoin казино Satoshidais.

Андрей Карпаты рассказал, как Claude реверс-инженерит API беговой дорожки и строит кастомный дашборд. Его тезис: приложения становятся одноразовыми, а ценность переходит к сервисам с AI-совместимыми API.

Unitree показал роботов на национальном ТВ Китая. Синхронное кунг-фу, кластерная координация. Boston Dynamics нервно курит.

AI-кодер Amazon Kiro решил, что лучший способ починить баг, это удалить и пересоздать продакшн-среду. Итог: 13 часов без AWS.

Grok 4.20 оказался четырьмя Grok 4.1 в пальто (буквально, в API видно grok-4-1-thinking). Плюс скандал: модель использует Маска как первоисточник по спорным темам.

Shx25cqOATLPKDmlzZpHvpb2AGrLd9X8PI3QbwduyNI.gif

Стартап Taalas показал ASIC-чип с Llama 3 8B на 16,000 tok/s. Модель залита прямо в кремний, 53 млрд транзисторов. Впечатляюще, но вопрос масштабирования открыт. Попробовать можно тут.

Тема, о которой мало говорят: один и тот же Opus 4.6 на LangChain и на Claude Code показал 1.7x разницу в скорости. OpenAI уже пишет про harness engineering как новую дисциплину. Идея простая: модели сближаются по качеству, а разница в результатах определяется инфраструктурой вокруг них. Как агент управляет контекстом, выбирает инструменты, восстанавливается после ошибок.

Кстати, в FoodTruck Bench Opus продавал куриные крылышки по $16 за порцию. И продал 826 штук. Вот вам и harness engineering.

Оставайтесь любопытными.

Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт в моем телеграм канале.

Автор: xonika9

Источник

Rambler's Top100