Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний. Claude.. Claude. Clojure.. Claude. Clojure. llm.. Claude. Clojure. llm. mcp.. Claude. Clojure. llm. mcp. SkillsBench.. Claude. Clojure. llm. mcp. SkillsBench. безопасность кода.. Claude. Clojure. llm. mcp. SkillsBench. безопасность кода. Блог компании Haulmont.. Claude. Clojure. llm. mcp. SkillsBench. безопасность кода. Блог компании Haulmont. вайбкодинг.. Claude. Clojure. llm. mcp. SkillsBench. безопасность кода. Блог компании Haulmont. вайбкодинг. искусственный интеллект.. Claude. Clojure. llm. mcp. SkillsBench. безопасность кода. Блог компании Haulmont. вайбкодинг. искусственный интеллект. реверс-инженеринг.. Claude. Clojure. llm. mcp. SkillsBench. безопасность кода. Блог компании Haulmont. вайбкодинг. искусственный интеллект. реверс-инженеринг. Текстовые редакторы и IDE.

Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со скиллами обошла Opus без них, Claude Code Security и потеря $1,78 млн из-за кода от Claude.

Вайбкодер случайно получил доступ к 7 000+ роботам-пылесосам

У меня после прочтения этой новости сразу перед глазами следующая сцена:

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 1

Аздуфаль — вайбкодер из Испании, по совместительству директор по AI-стратегии в компании Emerald State — решил научиться управлять роботом-пылесосом геймпадом от PS5. Взял Claude Code, зареверс-инжинерил протокол управления, написал приложение. Всё заработало. Но когда приложение было готово, оказалось, что он может управлять не только своим пылесосом, а ещё 7 000+ устройствами по всему миру.

Произошло это потому, что токен авторизации от одного конкретного пылесоса давал доступ к серверам DJI (да, тех самых DJI — я сам не знал, что они делают пылесосы), и через этот токен можно было получить информацию обо всех устройствах на платформе. Причём в 2016 году у DJI была похожая проблема с дронами: безопасность легко обходилась. По всей видимости, на своих ошибках они не особо учатся.

Отдельно интересно другое: каким образом он занимался реверс-инженирингом? Если попросить модель напрямую помочь со взломом ПО — она откажется. Но, как рассказывают, стоит сказать, что занимаешься этим в исследовательских целях или по заданию профессора — и модель с удовольствием продолжит.

Sonnet 4.6 и Gemini 3.1 Pro

На прошлой неделе состоялись два крупных релиза.

У Sonnet 4.6 появилось контекстное окно в 1 млн токенов (бета) — раньше это было только у Opus. В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев. Цена без изменений, повышена устойчивость к prompt injection.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 2

Gemini 3.1 Pro — всё то же самое: бенчмарки выросли на несколько процентных пунктов, снова топ-1 по большинству параметров.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 3

Может, я бы даже не включал эти новости в текущий дайджест, но с хайпом на AI это сделать сложновато. При этом ощущение такое: в плане улучшения самих языковых моделей мы упёрлись в некоторый предел. В масштабе прошлого года изменения были значительные, но я думаю, что через год они будут уже не такими заметными. Сдвиг сейчас происходит в другую сторону — про это следующая новость.

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Вот где сейчас реальный сдвиг — в инструментарии, которым пользуется модель. MCP, скиллы — всё это доказывает, что инструменты влияют на результат разительно.

Для тех, кто не в курсе: скиллы — это конкретные инструкции для модели, как решать определённую задачу. Не абстрактный промпт, а прямо пошаговое описание: как вызвать метод, как реализовать сервис, как работать с конкретной технологией.

Исследование провели масштабное: больше 100 экспертов, 86 задач из 11 доменов (не только программирование — медицина, финансы, маркетинг), больше 7000 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от самой модели и со скиллами от человека.

Два главных результата. Первый: модели сами для себя не умеют писать скиллы — эффект от человеческих скиллов кратно выше. Второй (это прямо вау): Haiku 4.5 со скиллами обогнала Opus 4.5 без скиллов. Самая маленькая и дешёвая модель Anthropic обошла самую большую — просто за счёт инструкций.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 4

Мы в Amplicode занимаемся разработкой Spring MCP — тулов, которые агент использует для написания кода на Spring сразу по лучшим практикам. Всю экспертизу, которую мы нарабатывали почти десятилетиями, упаковали в MCP-тулы. Бенчмарки планируем опубликовать в ближайшее время, но забегая вперёд — результаты соответствуют тому, что показывает SkillsBench.

Меньше двух недель до запрета иностранных слов в России

Речь про публичные рекламные активности предпринимателей и компаний. Иностранные слова можно использовать без перевода, только если они зарегистрированы как товарный знак или входят в один из четырёх нормативных словарей.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 5

Слово «бэкэнд» в словаре есть, а «фронтэнд» — нет. Вот и думайте :D

Поддержка Clojure в OpenIDE

В маркетплейсе OpenIDE появились два плагина для Clojure: Clojure LSP и Clojure REPL. До этого уже было больше 400 плагинов, поддерживались Java, Kotlin, Python, Go, JavaScript, TypeScript. Теперь список пополнился, а в этом году планируется ещё и C#.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 6

Я после этой новости полез смотреть, что за язык. Оказалось, в России есть довольно большое комьюнити — в Телеграме больше тысячи человек. Clojure — язык от Рича Хики, где реализован подход транзитивной памяти: всё иммутабельно, но тебе не нужно за этим следить вручную. Из знаковых проектов — база данных Datomic. Если пишете на Clojure — напишите в комментариях, интересно, чем живёте.

Anthopic представили Claude Code Security

Anthropic представили Claude Code Security — инструмент для поиска уязвимостей, встроенный в Claude Code. В отличие от обычных статических анализаторов, которые ищут слитые пароли или устаревшее шифрование, здесь модель смотрит на систему целиком: как двигаются данные, что с ними происходит, и пытается выявить паттерны. При этом система сама себя челленджит — проверяет, что выдвинутое предположение действительно релевантно.

По заявлению Anthropic, с помощью Claude Code 4.6 нашли больше 500 уязвимостей в продакшн-коде открытых проектов. Многие из них оставались в репозиториях долгое время, и никто их не находил.

Попутно наткнулся на материал: физик проанализировала более 100 000 исправленных багов ядра Linux, и больше 20% из них оставались в репозитории дольше 5 лет. Огромная кодовая база, никто не будет вручную перечитывать код, не связанный с текущей задачей. Моделям же — в прикол этим заниматься.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 7

Но складывается ощущение, что цикл замыкается: раньше люди генерировали баги, другие люди фиксили. Сейчас модели генерируют баг�� — и модели же их фиксят. Вот конкретный пример: DeFi-протокол Moonwell потерял $1,78 млн из-за ошибки в коде, который написал Claude. Баг был тривиальный — отсутствовало умножение при вычислении стоимости криптоактива. Вместо 2 000 долларов система выдавала 2. Те, кто заметили дисконт, за минуты нанесли ущерб почти на 2 млн.

Claude Code Security пока доступен только B2B-клиентам Anthropic.

Стартап Taalas впаял нейросеть в кремний: 17 000 токенов в секунду

Двумя неделями ранее OpenAI выпустили GPT 5.3 Codex Spark, которая выдавала больше 1 000 токенов/с.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 8

Для контекста: обычные модели генерируют 60–100 токенов в секунду. А ребята из Taalas разместили нейросеть прямо на чипе с готовыми весами и получили 17 000 токенов/с. Попробовать самостоятельно можно тут: https://chatjimmy.ai

Прямо сейчас это, наверное, экономически нецелесообразно — модели эволюционируют быстро, чип с конкретной нейросетью устареет через месяц. Но сама технология перспективная. Когда модели перестанут сильно развиваться от версии к версии (а я думаю, это произойдёт), такие решения станут очередным толчком. А пока компания нарабатывает техническую экспертизу и клиентскую базу.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний - 9

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram, чтобы не пропустить свежие обновления и полезные материалы.

Автор: honest_niceman

Источник

Rambler's Top100