- BrainTools - https://www.braintools.ru -

Индустрия давно ждёт от ИИ не только красивых ответов, но и действий: спланировать задачу, выбрать инструменты, исправить ошибки [1] и довести дело до результата. Авторы LIMI (Less Is More for Intelligent Agency) предлагают смелую идею: чтобы «воспитать» агентность, не нужно тонуть в миллионах примеров. Важнее правильно собрать несколько десятков демонстраций того, как ИИ должен работать вместе с человеком и средой.
Агентность — это не просто длинные рассуждения. Это умение брать на себя инициативу: видеть цель, строить план, корректировать курс по обратной связи, вызывать инструменты, держать контекст и доводить работу до результата. Авторы формулируют принцип эффективности агентности: стратегически отобранные, полные демонстрации автономного поведения [3] учат этому лучше, чем большой датасет. В LIMI всего 78 таких эпизодов — и этого оказалось достаточно, чтобы модель уверенно обогнала куда более «сытых данными» конкурентов.
Команда сфокусировалась на двух типах задач, которые покрывают большую часть интеллектуальной работы:
совместная разработка ПО (vibe coding): разбор кода, навигация по проекту, вызов инструментов, дебаг, коммуникация;
исследовательские процессы: поиск литературы, анализ данных, дизайн экспериментов, интерпретация результатов и чёткая отчетность.
Каждый эпизод — это не один вопрос, а целая последовательность действий: план, шаги, вызовы инструментов, наблюдения среды, исправления после неудач, подтверждение успеха. Средняя длина такой записи — около 42 тыс. токенов. Плотность сигналов очень высокая: один запрос покрывает несколько взаимосвязанных подзадач.
Источники запросов взяты из реальной практики разработчиков и исследователей, а также синтез из pull‑request’ов на GitHub (репозитории с высокой популярностью). GPT‑5 помогал превращать содержимое PR в чёткие и проверяемые задания для агента. Дальше включались 4 PhD‑аннотатора: в среде SII CLI они совместно с ИИ проходили всю задачу end‑to‑end, фиксируя каждый шаг, каждую попытку, каждую ошибку и её исправление. Получившийся набор — 78 тщательно отобранных запросов и их полных»траекторий.
На AgencyBench LIMI показывает 73,5% в среднем, заметно опережая сильные базовые модели: Kimi‑K2‑Instruct (24,1%), DeepSeek‑V3.1 (11,9%), Qwen3‑235B‑A22B‑Instruct (27,5%) и саму базу GLM‑4.5 (45,1%). Ключевой момент — эффективность данных: против модели, обученной на 10 000 примеров, LIMI даёт относительное улучшение на 53,7%, используя данных в 128 раз меньше.
За пределами основного бенчмарка картина сохраняется: на обобщающих наборах LIMI в среднем даёт 57,2%, обгоняя базовую GLM‑4.5 (43,0%). Рост есть и без инструментов (только «внутренняя логика»), а с SII CLI результат дополнительно поднимается за счёт лучшей оркестрации инструментов.
Во многих компаниях уже есть LLM‑сервисы, но переход к настоящим агентам буксует: слишком много пробелов между задачей, инструментами, логами, проверкой прогресса. LIMI показывает рабочий рецепт:
уменьшить объём, но резко повысить качество демонстраций;
записывать полные траектории в реальной среде;
курировать кейсы, где агент не только говорит, но и делает;
учить модель видеть цель, планировать и исправляться — то есть развивать модель мира и навыки управления действием во времени.
Главная идея исследования проста: бессмысленно просто насыпать больше данных. Если цель — агентность, данные должны быть отобраны строго по существу задачи. Важна последовательность действий, точки принятия решений, обратная связь среды и финальные критерии успеха. Такой сдвиг помогает переносить целые навыки.
Стоит ожидать, что индустрия будет активнее записывать траектории реальных рабочих процессов: не просто промты и ответы, а детальные шаги, инструменты, логи, проверки и выходы из тупиков. Это подталкивает нас к более ответственному дизайну мультиагентных систем и к более бережному отношению к данным: можно добиться больше, тщательно собирая меньше.
📜 Полная статья [4]
💾 Код [5]
***
Если вам интересна тема ИИ, [6]подписывайтесь на мой Telegram‑канал [7] [8]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19807
URLs in this post:
[1] ошибки: http://www.braintools.ru/article/4192
[2] интеллекта: http://www.braintools.ru/article/7605
[3] поведения: http://www.braintools.ru/article/9372
[4] 📜 Полная статья: https://arxiv.org/abs/2509.17567
[5] 💾 Код: https://github.com/GAIR-NLP/AgencyBench
[6] : https://t.me/+mP35nQPhgXZmZDYy
[7] подписывайтесь на мой Telegram‑канал: https://t.me/+brB_zR0iP10xMTQy
[8] : https://t.me/+9nDCqOqSLiM3NTVi
[9] Источник: https://habr.com/ru/articles/949624/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949624
Нажмите здесь для печати.