- BrainTools - https://www.braintools.ru -
Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench [1].
Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче. Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.

Для бенчмарка собрали 86 задач из 11 доменов (от разработки до медицины), привлекли 105 экспертов, прогнали 7 308 итераций на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами, написанными человеком и со скиллами, которые модель написала себе сама.
Результаты интересные. Скиллы, которые написали люди, в среднем повышают pass rate на 16.2 п.п. На 16 из 84 задач скиллы ухудшили результат. Самогенерированные скиллы не помогли вообще (-1.3 п.п. в среднем). Модели не умеют писать себе инструкции, которые потом сами же и используют.

Ещё два наблюдения: компактные скиллы из 2-3 модулей работают лучше подробных документаций, а маленькая модель со скиллами может обогнать большую без них. Haiku 4.5 со скиллами (27.7%) обошла Opus 4.5 без скиллов (22.0%).

С полными результатами исследования можно ознакомиться тут: https://arxiv.org/pdf/2602.12670 [2]

Друзья! Эту новость подготовила команда ТГК «AI for Devs [3]» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [3], чтобы быть в курсе и ничего не упустить!
Автор: python_leader
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25989
URLs in this post:
[1] SkillsBench: https://www.skillsbench.ai
[2] https://arxiv.org/pdf/2602.12670: https://arxiv.org/pdf/2602.12670
[3] AI for Devs: https://t.me/+VH7JJAoZXKNiN2Qy
[4] Источник: https://habr.com/ru/news/1002042/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1002042
Нажмите здесь для печати.