- BrainTools - https://www.braintools.ru -

Меньше примеров — больше интеллекта

Меньше примеров — больше интеллекта - 1

Индустрия давно ждёт от ИИ не только красивых ответов, но и действий: спланировать задачу, выбрать инструменты, исправить ошибки [1] и довести дело до результата. Авторы LIMI (Less Is More for Intelligent Agency) предлагают смелую идею: чтобы «воспитать» агентность, не нужно тонуть в миллионах примеров. Важнее правильно собрать несколько десятков демонстраций того, как ИИ должен работать вместе с человеком и средой.

LIMI демонстрирует принцип «меньше — значит больше» для агентного интеллекта. Слева: 73,5% на AgencyBench, лучше всех базовых моделей. Справа: используя всего 78 обучающих примеров, LIMI показывает улучшение на 53,7% по сравнению с моделями, обученными на 10 000 примерах.

LIMI демонстрирует принцип «меньше — значит больше» для агентного интеллекта [2]. Слева: 73,5% на AgencyBench, лучше всех базовых моделей. Справа: используя всего 78 обучающих примеров, LIMI показывает улучшение на 53,7% по сравнению с моделями, обученными на 10 000 примерах.

Почему «мало — это много»

Агентность — это не просто длинные рассуждения. Это умение брать на себя инициативу: видеть цель, строить план, корректировать курс по обратной связи, вызывать инструменты, держать контекст и доводить работу до результата. Авторы формулируют принцип эффективности агентности: стратегически отобранные, полные демонстрации автономного поведения [3] учат этому лучше, чем большой датасет. В LIMI всего 78 таких эпизодов — и этого оказалось достаточно, чтобы модель уверенно обогнала куда более «сытых данными» конкурентов.

Как это работает

Команда сфокусировалась на двух типах задач, которые покрывают большую часть интеллектуальной работы:

  • совместная разработка ПО (vibe coding): разбор кода, навигация по проекту, вызов инструментов, дебаг, коммуникация;

  • исследовательские процессы: поиск литературы, анализ данных, дизайн экспериментов, интерпретация результатов и чёткая отчетность.

Каждый эпизод — это не один вопрос, а целая последовательность действий: план, шаги, вызовы инструментов, наблюдения среды, исправления после неудач, подтверждение успеха. Средняя длина такой записи — около 42 тыс. токенов. Плотность сигналов очень высокая: один запрос покрывает несколько взаимосвязанных подзадач.

Пример запроса пользователя: один запрос охватывает взаимосвязанные подзадачи (планирование, выполнение, сотрудничество), демонстрируя высокую плотность обучающих сигналов в качественных демонстрациях.

Пример запроса пользователя: один запрос охватывает взаимосвязанные подзадачи (планирование, выполнение, сотрудничество), демонстрируя высокую плотность обучающих сигналов в качественных демонстрациях.

Как собрали эти эпизоды

Источники запросов взяты из реальной практики разработчиков и исследователей, а также синтез из pull‑request’ов на GitHub (репозитории с высокой популярностью). GPT‑5 помогал превращать содержимое PR в чёткие и проверяемые задания для агента. Дальше включались 4 PhD‑аннотатора: в среде SII CLI они совместно с ИИ проходили всю задачу end‑to‑end, фиксируя каждый шаг, каждую попытку, каждую ошибку и её исправление. Получившийся набор — 78 тщательно отобранных запросов и их полных»траекторий.

Конвейер построения данных LIMI. Слева: формирование пула пользовательских запросов через синтез PR на GitHub и сбор реальных запросов с проверкой качества. Справа: сбор траекторий в рамках совместной работы человека и ИИ в CLI-среде SII, с фиксацией полных последовательностей взаимодействий.

Конвейер построения данных LIMI. Слева: формирование пула пользовательских запросов через синтез PR на GitHub и сбор реальных запросов с проверкой качества. Справа: сбор траекторий в рамках совместной работы человека и ИИ в CLI-среде SII, с фиксацией полных последовательностей взаимодействий.

Что получилось на практике

На AgencyBench LIMI показывает 73,5% в среднем, заметно опережая сильные базовые модели: Kimi‑K2‑Instruct (24,1%), DeepSeek‑V3.1 (11,9%), Qwen3‑235B‑A22B‑Instruct (27,5%) и саму базу GLM‑4.5 (45,1%). Ключевой момент — эффективность данных: против модели, обученной на 10 000 примеров, LIMI даёт относительное улучшение на 53,7%, используя данных в 128 раз меньше.

За пределами основного бенчмарка картина сохраняется: на обобщающих наборах LIMI в среднем даёт 57,2%, обгоняя базовую GLM‑4.5 (43,0%). Рост есть и без инструментов (только «внутренняя логика»), а с SII CLI результат дополнительно поднимается за счёт лучшей оркестрации инструментов.

Характеристики обучающих данных LIMI. Слева: распределение длины траекторий, отражающее сложность взаимодействий (в среднем 42,4 тыс. токенов). Справа: охват доменов в «vibe coding» и исследовательских рабочих процессах.

Характеристики обучающих данных LIMI. Слева: распределение длины траекторий, отражающее сложность взаимодействий (в среднем 42,4 тыс. токенов). Справа: охват доменов в «vibe coding» и исследовательских рабочих процессах.

Почему это важно для индустрии

Во многих компаниях уже есть LLM‑сервисы, но переход к настоящим агентам буксует: слишком много пробелов между задачей, инструментами, логами, проверкой прогресса. LIMI показывает рабочий рецепт:

  • уменьшить объём, но резко повысить качество демонстраций;

  • записывать полные траектории в реальной среде;

  • курировать кейсы, где агент не только говорит, но и делает;

  • учить модель видеть цель, планировать и исправляться — то есть развивать модель мира и навыки управления действием во времени.

Главная идея исследования проста: бессмысленно просто насыпать больше данных. Если цель — агентность, данные должны быть отобраны строго по существу задачи. Важна последовательность действий, точки принятия решений, обратная связь среды и финальные критерии успеха. Такой сдвиг помогает переносить целые навыки.

Стоит ожидать, что индустрия будет активнее записывать траектории реальных рабочих процессов: не просто промты и ответы, а детальные шаги, инструменты, логи, проверки и выходы из тупиков. Это подталкивает нас к более ответственному дизайну мультиагентных систем и к более бережному отношению к данным: можно добиться больше, тщательно собирая меньше.

📜 Полная статья [4]

💾 Код [5]

***

Если вам интересна тема ИИ,  [6]подписывайтесь на мой Telegram‑канал [7]  [8]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник [9]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19807

URLs in this post:

[1] ошибки: http://www.braintools.ru/article/4192

[2] интеллекта: http://www.braintools.ru/article/7605

[3] поведения: http://www.braintools.ru/article/9372

[4] 📜 Полная статья: https://arxiv.org/abs/2509.17567

[5] 💾 Код: https://github.com/GAIR-NLP/AgencyBench

[6]  : https://t.me/+mP35nQPhgXZmZDYy

[7] подписывайтесь на мой Telegram‑канал: https://t.me/+brB_zR0iP10xMTQy

[8]  : https://t.me/+9nDCqOqSLiM3NTVi

[9] Источник: https://habr.com/ru/articles/949624/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949624

www.BrainTools.ru

Rambler's Top100