SkillsBench: скиллы дают реальный буст, но только если их писал человек
Исследователи сделали первый бенчмарк, который измеряет, помогают ли «скиллы» ИИ-агентам решать задачи. Его назвали SkillsBench.Skill — это, по сути, папка с инструкциями, скриптами и подсказками, которую агент читает перед тем, как приступить к задаче. Что-то вроде методички для конкретной предметной области. Такие скиллы уже активно используются в Claude Code, Gemini CLI и Codex CLI, но до сих пор никто систематически не проверял, работают ли они вообще.
Обзор Claude Opus 4.5 — новый лидер в кодинге
Доброго времени суток, «Хабр»!Немногим больше, чем неделя назад, мир получил новую модель - Claude Opus 4.5. Компания Anthropic заявила, что по сравнению с предыдущими версиями она предоставляет действительно качественные результаты в программировании, написании сценариев и работы с компьютером в целом. Помимо этого, существенно повысилось качество обработки повседневных задач - от поиска и анализа информации до работы с презентациями и таблицами.Действительно ли это так? В сегодняшней статье подробнее остановимся на этой модели, проведем тестирование, а в финале я выскажу собственное мнение о ней.

