- BrainTools - https://www.braintools.ru -

SkillsBench: скиллы дают реальный буст, но только если их писал человек

Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench [1].

Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче. Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.

SkillsBench: скиллы дают реальный буст, но только если их писал человек - 1

Для бенчмарка собрали 86 задач из 11 доменов (от разработки до медицины), привлекли 105 экспертов, прогнали 7 308 итераций на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами, написанными человеком и со скиллами, которые модель написала себе сама.

Результаты интересные. Скиллы, которые написали люди, в среднем повышают pass rate на 16.2 п.п. На 16 из 84 задач скиллы ухудшили результат. Самогенерированные скиллы не помогли вообще (-1.3 п.п. в среднем). Модели не умеют писать себе инструкции, которые потом сами же и используют.

SkillsBench: скиллы дают реальный буст, но только если их писал человек - 2

Ещё два наблюдения: компактные скиллы из 2-3 модулей работают лучше подробных документаций, а маленькая модель со скиллами может обогнать большую без них. Haiku 4.5 со скиллами (27.7%) обошла Opus 4.5 без скиллов (22.0%).

SkillsBench: скиллы дают реальный буст, но только если их писал человек - 3

С полными результатами исследования можно ознакомиться тут: https://arxiv.org/pdf/2602.12670 [2]

Русскоязычное сообщество про AI в разработке

SkillsBench: скиллы дают реальный буст, но только если их писал человек - 4

Друзья! Эту новость подготовила команда ТГК «AI for Devs [3]» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [3], чтобы быть в курсе и ничего не упустить!

Автор: python_leader

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25989

URLs in this post:

[1] SkillsBench: https://www.skillsbench.ai

[2] https://arxiv.org/pdf/2602.12670: https://arxiv.org/pdf/2602.12670

[3] AI for Devs: https://t.me/+VH7JJAoZXKNiN2Qy

[4] Источник: https://habr.com/ru/news/1002042/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1002042

www.BrainTools.ru

Rambler's Top100