Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со скиллами обошла Opus без них, Claude Code Security и потеря $1,78 млн из-за кода от Claude.

Вайбкодер случайно получил доступ к 7 000+ роботам-пылесосам

У меня после прочтения этой новости сразу перед глазами следующая сцена:

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 1

Аздуфаль — вайбкодер из Испании, по совместительству директор по AI-стратегии в компании Emerald State — решил научиться ^[1] управлять роботом-пылесосом геймпадом от PS5. Взял Claude Code, зареверс-инжинерил протокол управления, написал приложение. Всё заработало. Но когда приложение было готово, оказалось, что он может управлять не только своим пылесосом, а ещё 7 000+ устройствами по всему миру.

Произошло это потому, что токен авторизации от одного конкретного пылесоса давал доступ к серверам DJI (да, тех самых DJI — я сам не знал, что они делают пылесосы), и через этот токен можно было получить информацию обо всех устройствах на платформе. Причём в 2016 году у DJI была похожая проблема с дронами: безопасность легко обходилась. По всей видимости, на своих ошибках они не особо учатся.

Отдельно интересно другое: каким образом он занимался реверс-инженирингом? Если попросить модель напрямую помочь со взломом ПО — она откажется. Но, как рассказывают, стоит сказать, что занимаешься этим в исследовательских целях или по заданию профессора — и модель с удовольствием продолжит.

Sonnet 4.6 и Gemini 3.1 Pro

На прошлой неделе состоялись два крупных релиза.

У Sonnet 4.6 появилось ^[2] контекстное окно в 1 млн токенов (бета) — раньше это было только у Opus. В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев. Цена без изменений, повышена устойчивость к prompt injection.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 2

Gemini 3.1 Pro ^[3] — всё то же самое: бенчмарки выросли на несколько процентных пунктов, снова топ-1 по большинству параметров.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 3

Может, я бы даже не включал эти новости в текущий дайджест, но с хайпом на AI это сделать сложновато. При этом ощущение такое: в плане улучшения самих языковых моделей мы упёрлись в некоторый предел. В масштабе прошлого года изменения были значительные, но я думаю, что через год они будут уже не такими заметными. Сдвиг сейчас происходит в другую сторону — про это следующая новость.

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Вот где сейчас реальный сдвиг — в инструментарии, которым пользуется модель. MCP, скиллы — всё это доказывает, что инструменты влияют на результат разительно.

Для тех, кто не в курсе: скиллы ^[4] — это конкретные инструкции для модели, как решать определённую задачу. Не абстрактный промпт, а прямо пошаговое описание: как вызвать метод, как реализовать сервис, как работать с конкретной технологией.

Исследование ^[5] провели масштабное: больше 100 экспертов, 86 задач из 11 доменов (не только программирование — медицина, финансы, маркетинг), больше 7000 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от самой модели и со скиллами от человека.

Два главных результата. Первый: модели сами для себя не умеют писать скиллы — эффект от человеческих скиллов кратно выше. Второй (это прямо вау): Haiku 4.5 со скиллами обогнала Opus 4.5 без скиллов. Самая маленькая и дешёвая модель Anthropic обошла самую большую — просто за счёт инструкций.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 4

Мы в Amplicode занимаемся разработкой Spring MCP ^[6] — тулов, которые агент использует для написания кода на Spring сразу по лучшим практикам. Всю экспертизу, которую мы нарабатывали почти десятилетиями, упаковали в MCP-тулы. Бенчмарки планируем опубликовать в ближайшее время, но забегая вперёд — результаты соответствуют тому, что показывает SkillsBench.

Меньше двух недель до запрета иностранных слов в России

Речь про публичные рекламные активности ^[7] предпринимателей и компаний. Иностранные слова можно использовать без перевода, только если они зарегистрированы как товарный знак или входят в один из четырёх нормативных словарей.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 5

Слово «бэкэнд» в словаре есть, а «фронтэнд» — нет. Вот и думайте :D

Поддержка Clojure в OpenIDE

В маркетплейсе OpenIDE появились ^[8] два плагина для Clojure: Clojure LSP и Clojure REPL. До этого уже было больше 400 плагинов, поддерживались Java, Kotlin, Python, Go, JavaScript, TypeScript. Теперь список пополнился, а в этом году планируется ещё и C#.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 6

Я после этой новости полез смотреть, что за язык. Оказалось, в России есть довольно большое комьюнити — в Телеграме больше тысячи человек. Clojure — язык от Рича Хики, где реализован подход транзитивной памяти ^[9]: всё иммутабельно, но тебе не нужно за этим следить вручную. Из знаковых проектов — база данных Datomic ^[10]. Если пишете на Clojure — напишите в комментариях, интересно, чем живёте.

Anthopic представили Claude Code Security

Anthropic представили ^[11] Claude Code Security — инструмент для поиска уязвимостей, встроенный в Claude Code. В отличие от обычных статических анализаторов, которые ищут слитые пароли или устаревшее шифрование, здесь модель смотрит на систему целиком: как двигаются данные, что с ними происходит, и пытается выявить паттерны. При этом система сама себя челленджит — проверяет, что выдвинутое предположение действительно релевантно.

По заявлению Anthropic, с помощью Claude Code 4.6 нашли больше 500 уязвимостей в продакшн-коде открытых проектов. Многие из них оставались в репозиториях долгое время, и никто их не находил.

Попутно наткнулся на материал ^[12]: физик проанализировала более 100 000 исправленных багов ядра Linux, и больше 20% из них оставались в репозитории дольше 5 лет. Огромная кодовая база, никто не будет вручную перечитывать код, не связанный с текущей задачей. Моделям же — в прикол этим заниматься.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 7

Но складывается ощущение, что цикл замыкается: раньше люди генерировали баги, другие люди фиксили. Сейчас модели генерируют баг�� — и модели же их фиксят. Вот конкретный пример ^[13]: DeFi-протокол Moonwell потерял $1,78 млн из-за ошибки ^[14] в коде, который написал Claude. Баг был тривиальный — отсутствовало умножение при вычислении стоимости криптоактива. Вместо 2 000 долларов система выдавала 2. Те, кто заметили дисконт, за минуты нанесли ущерб почти на 2 млн.

Claude Code Security пока доступен только B2B-клиентам Anthropic.

Стартап Taalas впаял нейросеть в кремний: 17 000 токенов в секунду

Двумя неделями ранее OpenAI выпустили GPT 5.3 Codex Spark ^[15], которая выдавала больше 1 000 токенов/с.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 8

Для контекста: обычные модели генерируют 60–100 токенов в секунду. А ребята из Taalas разместили нейросеть прямо на чипе ^[16] с готовыми весами и получили 17 000 токенов/с. Попробовать самостоятельно можно тут: https://chatjimmy.ai ^[17]

Прямо сейчас это, наверное, экономически нецелесообразно — модели эволюционируют быстро, чип с конкретной нейросетью устареет через месяц. Но сама технология перспективная. Когда модели перестанут сильно развиваться от версии к версии (а я думаю, это произойдёт), такие решения станут очередным толчком. А пока компания нарабатывает техническую экспертизу и клиентскую базу.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 9

Уже сейчас OpenIDE ^[18] позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе ^[19]. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram ^[20], чтобы не пропустить свежие обновления и полезные материалы.

Автор: honest_niceman

Источник ^[21]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26181

URLs in this post:

[1] решил научиться: https://www.bfm.ru/news/598687

[2] появилось: https://habr.com/ru/news/1000674/

[3] Gemini 3.1 Pro: https://habr.com/ru/news/1001566/

[4] скиллы: https://agentskills.io/home

[5] Исследование: https://www.skillsbench.ai/

[6] Spring MCP: https://habr.com/ru/companies/haulmont/articles/976872/

[7] публичные рекламные активности: https://habr.com/ru/articles/1000358/

[8] появились: https://habr.com/ru/companies/haulmont/news/1000034/

[9] памяти: http://www.braintools.ru/article/4140

[10] Datomic: https://www.datomic.com

[11] представили: https://habr.com/ru/news/1002050/

[12] материал: https://habr.com/ru/articles/996682/

[13] конкретный пример: https://forum.moonwell.fi/t/mip-x43-cbeth-oracle-incident-summary/2068

[14] ошибки: http://www.braintools.ru/article/4192

[15] GPT 5.3 Codex Spark: https://t.me/ai_for_devs/284

[16] разместили нейросеть прямо на чипе: https://habr.com/ru/news/1001808/

[17] https://chatjimmy.ai: https://chatjimmy.ai

[18] OpenIDE: https://openide.ru

[19] маркетплейсе: https://marketplace.openide.ru

[20] Telegram: https://t.me/openide_official

[21] Источник: https://habr.com/ru/companies/haulmont/articles/1003490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003490

Нажмите здесь для печати.