- BrainTools - https://www.braintools.ru -

Amazon научил ИИ-агентов эволюционировать: 3 строки кода и первое место на бенчмарке

Amazon научил ИИ-агентов эволюционировать: 3 строки кода и первое место на бенчмарке - 1

Исследователи Amazon и Университета Пенсильвании выпустили [1] open-source фреймворк A-Evolve, который превращает базового ИИ-агента в топового — автоматически, без ручной настройки. Система берет обычного агента на любой LLM, итеративно модифицирует его промпты, скиллы, память [2] и инструменты, прогоняет через бенчмарки и сохраняет только те изменения, которые улучшают результат. Авторы называют это “моментом PyTorch для самоэволюции ИИ”.

Идея проста: агенты после деплоя деградируют, потому что мир меняется, а они — нет. Дообучение и ручная подстройка промптов не масштабируются. A-Evolve предлагает третий путь — агентную эволюцию [3], когда за улучшение агента отвечает отдельный «агент-эволюционер». Он анализирует ошибки [4], модифицирует рабочую папку агента (промпты, скиллы, память, инструменты), запускает тесты, а каждую мутацию фиксирует через git для воспроизводимости. Подход описан в статье [5] Position: Agentic Evolution is the Path to Evolving LLMs, опубликованной в конце января 2026 года.

Результаты получены с агентом на базе Claude Opus 4.6. На бенчмарке MCP-Atlas эволюция дала 79,4% — первое место в общем рейтинге и +3,4 п.п. к тому же агенту без эволюции. На SWE-bench Verified — 76,8% (+2,6 п.п.), примерно пятая позиция. На Terminal-Bench 2.0 прирост составил 13 п.п. (с 63,5% до 76,5%), а на SkillsBench — 15,2 п.п. (с 19,7% до 34,9%). При этом для запуска достаточно трёх строк кода на Python, а весь процесс эволюции происходит без участия человека.

Фреймворк построен по принципу “принеси свое”: свой агент (BYOA), свою среду (BYOE), свой алгоритм эволюции (BYO-Algo). Рабочее пространство агента — обычная папка с файлами: manifest.yaml, промпты, скиллы, память, инструменты. Движок мутирует файлы — и всt. A-Evolve поддерживает LLM от Anthropic, OpenAI и Amazon Bedrock, а бенчмарки включают SWE-bench, MCP-Atlas, Terminal-Bench и SkillsBench.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть [6]“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник [7]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27943

URLs in this post:

[1] выпустили: https://github.com/A-EVO-Lab/a-evolve

[2] память: http://www.braintools.ru/article/4140

[3] эволюцию: http://www.braintools.ru/article/7702

[4] ошибки: http://www.braintools.ru/article/4192

[5] статье: https://arxiv.org/abs/2602.00359

[6] сбежавшая нейросеть: https://escaped-ai.ru/tg/

[7] Источник: https://habr.com/ru/news/1016618/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016618

www.BrainTools.ru

Rambler's Top100