- BrainTools - https://www.braintools.ru -
Оказывается, JetBrains тихо развивает собственный агент для работы в терминале — Junie CLI [1]. Инструмент не фигурирует в публичных анонсах, но именно он занял первое место в свежем бенчмарке Terminal-Bench 2.0 [2], обойдя более известные решения.
Terminal-Bench — это прикладной бенчмарк для оценки агентных систем, работающих внутри терминального окружения. Агенту выдается контейнер с «сырой» средой и набор инженерных задач: выполнять shell-команды, писать и править скрипты, устанавливать зависимости, разбираться с ошибками окружения, дебажить и доводить систему до рабочего состояния.

В отличие от reasoning-бенчмарков, где оценивается качество рассуждений на синтетических задачах, Terminal-Bench проверяет именно инженерную компетенцию. Здесь важно не рассуждать, а последовательно действовать: планировать шаги, корректно взаимодействовать с инструментами, учитывать состояние среды и получать воспроизводимый результат.


Друзья! Эту новость подготовила команда ТГК «AI for Devs [3]» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [3], чтобы быть в курсе и ничего не упустить!
Автор: python_leader
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23650
URLs in this post:
[1] Junie CLI: https://www.npmjs.com/package/@jetbrains/junie-cli?activeTab=readme
[2] Terminal-Bench 2.0: https://www.tbench.ai
[3] AI for Devs: https://t.me/+pG2FdKksSBQxNTNi
[4] Источник: https://habr.com/ru/news/980170/?utm_source=habrahabr&utm_medium=rss&utm_campaign=980170
Нажмите здесь для печати.