SkillsBench.

Haiku обогнала Opus, а стартап Taalas впаял нейросеть в кремний

Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со скиллами обошла Opus без них, Claude Code Security и потеря $1,78 млн из-за кода от Claude.Вайбкодер случайно получил доступ к 7 000+ роботам-пылесосамУ меня после прочтения этой новости сразу перед глазами следующая сцена:

продолжить чтение

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче. Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.

продолжить чтение