- BrainTools - https://www.braintools.ru -
Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со скиллами обошла Opus без них, Claude Code Security и потеря $1,78 млн из-за кода от Claude.
У меня после прочтения этой новости сразу перед глазами следующая сцена:

Аздуфаль — вайбкодер из Испании, по совместительству директор по AI-стратегии в компании Emerald State — решил научиться [1] управлять роботом-пылесосом геймпадом от PS5. Взял Claude Code, зареверс-инжинерил протокол управления, написал приложение. Всё заработало. Но когда приложение было готово, оказалось, что он может управлять не только своим пылесосом, а ещё 7 000+ устройствами по всему миру.
Произошло это потому, что токен авторизации от одного конкретного пылесоса давал доступ к серверам DJI (да, тех самых DJI — я сам не знал, что они делают пылесосы), и через этот токен можно было получить информацию обо всех устройствах на платформе. Причём в 2016 году у DJI была похожая проблема с дронами: безопасность легко обходилась. По всей видимости, на своих ошибках они не особо учатся.
Отдельно интересно другое: каким образом он занимался реверс-инженирингом? Если попросить модель напрямую помочь со взломом ПО — она откажется. Но, как рассказывают, стоит сказать, что занимаешься этим в исследовательских целях или по заданию профессора — и модель с удовольствием продолжит.
На прошлой неделе состоялись два крупных релиза.
У Sonnet 4.6 появилось [2] контекстное окно в 1 млн токенов (бета) — раньше это было только у Opus. В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев. Цена без изменений, повышена устойчивость к prompt injection.

Gemini 3.1 Pro [3] — всё то же самое: бенчмарки выросли на несколько процентных пунктов, снова топ-1 по большинству параметров.

Может, я бы даже не включал эти новости в текущий дайджест, но с хайпом на AI это сделать сложновато. При этом ощущение такое: в плане улучшения самих языковых моделей мы упёрлись в некоторый предел. В масштабе прошлого года изменения были значительные, но я думаю, что через год они будут уже не такими заметными. Сдвиг сейчас происходит в другую сторону — про это следующая новость.
Вот где сейчас реальный сдвиг — в инструментарии, которым пользуется модель. MCP, скиллы — всё это доказывает, что инструменты влияют на результат разительно.
Для тех, кто не в курсе: скиллы [4] — это конкретные инструкции для модели, как решать определённую задачу. Не абстрактный промпт, а прямо пошаговое описание: как вызвать метод, как реализовать сервис, как работать с конкретной технологией.
Исследование [5] провели масштабное: больше 100 экспертов, 86 задач из 11 доменов (не только программирование — медицина, финансы, маркетинг), больше 7000 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от самой модели и со скиллами от человека.
Два главных результата. Первый: модели сами для себя не умеют писать скиллы — эффект от человеческих скиллов кратно выше. Второй (это прямо вау): Haiku 4.5 со скиллами обогнала Opus 4.5 без скиллов. Самая маленькая и дешёвая модель Anthropic обошла самую большую — просто за счёт инструкций.

Мы в Amplicode занимаемся разработкой Spring MCP [6] — тулов, которые агент использует для написания кода на Spring сразу по лучшим практикам. Всю экспертизу, которую мы нарабатывали почти десятилетиями, упаковали в MCP-тулы. Бенчмарки планируем опубликовать в ближайшее время, но забегая вперёд — результаты соответствуют тому, что показывает SkillsBench.
Речь про публичные рекламные активности [7] предпринимателей и компаний. Иностранные слова можно использовать без перевода, только если они зарегистрированы как товарный знак или входят в один из четырёх нормативных словарей.

Слово «бэкэнд» в словаре есть, а «фронтэнд» — нет. Вот и думайте :D
В маркетплейсе OpenIDE появились [8] два плагина для Clojure: Clojure LSP и Clojure REPL. До этого уже было больше 400 плагинов, поддерживались Java, Kotlin, Python, Go, JavaScript, TypeScript. Теперь список пополнился, а в этом году планируется ещё и C#.

Я после этой новости полез смотреть, что за язык. Оказалось, в России есть довольно большое комьюнити — в Телеграме больше тысячи человек. Clojure — язык от Рича Хики, где реализован подход транзитивной памяти [9]: всё иммутабельно, но тебе не нужно за этим следить вручную. Из знаковых проектов — база данных Datomic [10]. Если пишете на Clojure — напишите в комментариях, интересно, чем живёте.
Anthropic представили [11] Claude Code Security — инструмент для поиска уязвимостей, встроенный в Claude Code. В отличие от обычных статических анализаторов, которые ищут слитые пароли или устаревшее шифрование, здесь модель смотрит на систему целиком: как двигаются данные, что с ними происходит, и пытается выявить паттерны. При этом система сама себя челленджит — проверяет, что выдвинутое предположение действительно релевантно.
По заявлению Anthropic, с помощью Claude Code 4.6 нашли больше 500 уязвимостей в продакшн-коде открытых проектов. Многие из них оставались в репозиториях долгое время, и никто их не находил.
Попутно наткнулся на материал [12]: физик проанализировала более 100 000 исправленных багов ядра Linux, и больше 20% из них оставались в репозитории дольше 5 лет. Огромная кодовая база, никто не будет вручную перечитывать код, не связанный с текущей задачей. Моделям же — в прикол этим заниматься.

Но складывается ощущение, что цикл замыкается: раньше люди генерировали баги, другие люди фиксили. Сейчас модели генерируют баг�� — и модели же их фиксят. Вот конкретный пример [13]: DeFi-протокол Moonwell потерял $1,78 млн из-за ошибки [14] в коде, который написал Claude. Баг был тривиальный — отсутствовало умножение при вычислении стоимости криптоактива. Вместо 2 000 долларов система выдавала 2. Те, кто заметили дисконт, за минуты нанесли ущерб почти на 2 млн.
Claude Code Security пока доступен только B2B-клиентам Anthropic.
Двумя неделями ранее OpenAI выпустили GPT 5.3 Codex Spark [15], которая выдавала больше 1 000 токенов/с.

Для контекста: обычные модели генерируют 60–100 токенов в секунду. А ребята из Taalas разместили нейросеть прямо на чипе [16] с готовыми весами и получили 17 000 токенов/с. Попробовать самостоятельно можно тут: https://chatjimmy.ai [17]
Прямо сейчас это, наверное, экономически нецелесообразно — модели эволюционируют быстро, чип с конкретной нейросетью устареет через месяц. Но сама технология перспективная. Когда модели перестанут сильно развиваться от версии к версии (а я думаю, это произойдёт), такие решения станут очередным толчком. А пока компания нарабатывает техническую экспертизу и клиентскую базу.

Уже сейчас OpenIDE [18] позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе [19]. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram [20], чтобы не пропустить свежие обновления и полезные материалы.
Автор: honest_niceman
Источник [21]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26181
URLs in this post:
[1] решил научиться: https://www.bfm.ru/news/598687
[2] появилось: https://habr.com/ru/news/1000674/
[3] Gemini 3.1 Pro: https://habr.com/ru/news/1001566/
[4] скиллы: https://agentskills.io/home
[5] Исследование: https://www.skillsbench.ai/
[6] Spring MCP: https://habr.com/ru/companies/haulmont/articles/976872/
[7] публичные рекламные активности: https://habr.com/ru/articles/1000358/
[8] появились: https://habr.com/ru/companies/haulmont/news/1000034/
[9] памяти: http://www.braintools.ru/article/4140
[10] Datomic: https://www.datomic.com
[11] представили: https://habr.com/ru/news/1002050/
[12] материал: https://habr.com/ru/articles/996682/
[13] конкретный пример: https://forum.moonwell.fi/t/mip-x43-cbeth-oracle-incident-summary/2068
[14] ошибки: http://www.braintools.ru/article/4192
[15] GPT 5.3 Codex Spark: https://t.me/ai_for_devs/284
[16] разместили нейросеть прямо на чипе: https://habr.com/ru/news/1001808/
[17] https://chatjimmy.ai: https://chatjimmy.ai
[18] OpenIDE: https://openide.ru
[19] маркетплейсе: https://marketplace.openide.ru
[20] Telegram: https://t.me/openide_official
[21] Источник: https://habr.com/ru/companies/haulmont/articles/1003490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003490
Нажмите здесь для печати.