- BrainTools - https://www.braintools.ru -
Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.
Google выпустил Gemini 3.1 Pro [1]. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое [2].
В реальной работе не всё гладко. Бывший сотрудник Google на HN [3] написал, что Gemini “самая раздражающая модель для разработки”: ненужные рефакторинги, непрошенные комментарии, потеря контекста. На Reddit жалуются на нерф через пару дней после запуска. В Gemini CLI агенты уходили в бесконечные циклы, пытаясь обновить себя до несуществующих версий.
Заодно Google запустил Lyria 3 [4], генератор музыки внутри Gemini. Промпт → 30-секундный трек с вокалом, маркируется SynthID. Можно выбрать стиль и замиксовать, получается интересно.
И ещё один тихий запуск от Google: Pomelli Photoshoot [5]. Загружаешь фото продукта со смартфона, получаешь студийные снимки: на белом фоне, в интерьере, с AI-моделью. Бесплатно, работает на Nano Banana. Для малого бизнеса это замена фотосессии за $500. Пока доступно только в США, Канаде, Австралии и Новой Зеландии.
Про релиз Sonnet 4.6 [6] я писал на прошлой неделе [7], теперь появились реальные отзывы. Хвалят: лучше следует инструкциям, меньше оверинжинирит, код читается как написанный человеком. Cursor написал [8], что модель лучше на длинных задачах, но “по интеллекту [9] ниже Opus 4.6”. Главная боль [10]: расход токенов вырос в ~4.5 раза по сравнению с Sonnet 4.5.
Anthropic запустил Claude Code Security [11], сканер уязвимостей на Opus 4.6. Работает не по паттернам, а читает код как исследователь. Инструмент в research preview, только для Enterprise. Рыночек отреагировал: CrowdStrike -8%, Cloudflare -8%, Zscaler -5.5%. В Твиттере писали, что Anthropic “съел весь обед индустрии AppSec”. Но инфосек-комьюнити уже привыкло паниковать.
Георгий Герганов объявил, что ggml.ai [12] присоединяется к Hugging Face [13]. llama.cpp, проект, который в 2023-м запустил революцию локальных моделей, теперь получил инфраструктуру HF и остаётся open source. HF также объявил коллаборацию с Unsloth [14] для бесплатного файнтюнинга на платформе.
Появились забавные “бизнес-бенчмарки“. FoodTruck Bench [15]: моделям дают $2000 и фудтрак в Остине на 30 дней. Opus 4.6 финишировал с $49.5K (выручка $80K, отходов на $1.72 за весь месяц). GPT-5.2 на втором месте с $28K. 10 из 16 моделей обанкротились. Gemini Flash зависает в бесконечном цикле [16]. Человек тоже может поиграть [17]. На Vending Bench 2 [18] (вендинговый автомат, $500, год) Opus финишировал с ~$8K, Gemini 3 Pro с ~$5.5K.

Тем временем автономный OpenClaw [19]-агент ночью без участия человека запустил токен в сети Base [20] и Bitcoin казино Satoshidais [21].
Андрей Карпаты [22] рассказал, как Claude реверс-инженерит API беговой дорожки и строит кастомный дашборд. Его тезис: приложения становятся одноразовыми, а ценность переходит к сервисам с AI-совместимыми API.
Unitree [23] показал роботов на национальном ТВ Китая. Синхронное кунг-фу, кластерная координация. Boston Dynamics нервно курит.
AI-кодер Amazon Kiro [24] решил, что лучший способ починить баг, это удалить и пересоздать продакшн-среду. Итог: 13 часов без AWS.
Grok 4.20 [25] оказался четырьмя Grok 4.1 в пальто (буквально, в API видно grok-4-1-thinking [26]). Плюс скандал: модель использует Маска [27] как первоисточник по спорным темам.

Стартап Taalas [28] показал ASIC-чип с Llama 3 8B на 16,000 tok/s. Модель залита прямо в кремний, 53 млрд транзисторов. Впечатляюще, но вопрос масштабирования открыт. Попробовать можно тут [29].
Тема, о которой мало говорят: один и тот же Opus 4.6 на LangChain и на Claude Code [30] показал 1.7x разницу в скорости. OpenAI уже пишет про harness engineering [31] как новую дисциплину. Идея простая: модели сближаются по качеству, а разница в результатах определяется инфраструктурой вокруг них. Как агент управляет контекстом, выбирает инструменты, восстанавливается после ошибок.
Кстати, в FoodTruck Bench Opus продавал куриные крылышки по $16 за порцию. И продал 826 штук. Вот вам и harness engineering.
Оставайтесь любопытными.
Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт [32] в моем телеграм канале [33].
Автор: xonika9
Источник [34]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26159
URLs in this post:
[1] Gemini 3.1 Pro: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
[2] умеет такое: https://x.com/viktoroddy/status/2024832167164133766
[3] HN: https://news.ycombinator.com/item?id=47074735
[4] Lyria 3: https://deepmind.google/models/lyria/
[5] Pomelli Photoshoot: https://blog.google/innovation-and-ai/models-and-research/google-labs/pomelli-photoshoot/
[6] Sonnet 4.6: https://www.anthropic.com/news/claude-sonnet-4-6
[7] писал на прошлой неделе: https://habr.com/ru/news/1000746/#:~:text=Anthropic%20%D0%B2%D1%8B%D0%BF%D1%83%D1%81%D1%82%D0%B8%D0%BB%D0%B8%20Sonnet%204.6
[8] написал: https://x.com/cursor_ai/status/2023841746577485894
[9] интеллекту: http://www.braintools.ru/article/7605
[10] боль: http://www.braintools.ru/article/9901
[11] Claude Code Security: https://www.anthropic.com/news/claude-code-security
[12] ggml.ai: http://ggml.ai
[13] присоединяется к Hugging Face: https://github.com/ggml-org/llama.cpp/discussions/19759
[14] коллаборацию с Unsloth: https://huggingface.co/blog/unsloth-jobs
[15] FoodTruck Bench: https://foodtruckbench.com
[16] зависает в бесконечном цикле: https://foodtruckbench.com/blog/gemini-flash
[17] тоже может поиграть: https://foodtruckbench.com/play
[18] Vending Bench 2: https://andonlabs.com/evals/vending-bench-2
[19] OpenClaw: https://gotacat.dev/ru/blog/openclaw-clawdbot-guide-vps-setup-honest-review
[20] токен в сети Base: https://lastaistanding.com/
[21] Satoshidais: https://satoshidais.fun/
[22] Андрей Карпаты: https://x.com/karpathy/status/2024583544157458452
[23] Unitree: https://x.com/ZhihuFrontier/status/2023794225616502932
[24] Kiro: https://www.engadget.com/ai/13-hour-aws-outage-reportedly-caused-by-amazons-own-ai-tools-170930190.html
[25] Grok 4.20: https://x.com/kimmonismus/status/2023722999828861070
[26] API видно grok-4-1-thinking: https://www.reddit.com/r/singularity/comments/1r75lya/grok_420_is_just_four_grok_41_agents/
[27] использует Маска: https://x.com/elonmusk/status/2023880206721970544
[28] Taalas: https://www.forbes.com/sites/karlfreund/2026/02/19/taalas-launches-hardcore-chip-with-insane-ai-inference-performance/
[29] тут: https://chatjimmy.ai/
[30] LangChain и на Claude Code: https://x.com/GitMaxd/status/2024137171217871106
[31] harness engineering: https://openai.com/index/harness-engineering/
[32] опыт: http://www.braintools.ru/article/6952
[33] моем телеграм канале: https://t.me/+p7bbLeKhTl85MmE6
[34] Источник: https://habr.com/ru/news/1003222/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003222
Нажмите здесь для печати.