Долой иерархию и роли: о том, как LLM-агенты самоорганизуются лучше, чем мы их проектируем. Ai agents.. Ai agents. Claude.. Ai agents. Claude. deepseek.. Ai agents. Claude. deepseek. gpt.. Ai agents. Claude. deepseek. gpt. llm.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы. Анализ и проектирование систем.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы. Анализ и проектирование систем. искусственный интеллект.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы. Анализ и проектирование систем. искусственный интеллект. координация.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы. Анализ и проектирование систем. искусственный интеллект. координация. Машинное обучение.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы. Анализ и проектирование систем. искусственный интеллект. координация. Машинное обучение. мультиагентные системы.. Ai agents. Claude. deepseek. gpt. llm. multi-agent systems. Natural Language Processing. Алгоритмы. Анализ и проектирование систем. искусственный интеллект. координация. Машинное обучение. мультиагентные системы. самоорганизация.

Хабр, привет! Меня зовут Вика Дочкина, я работаю в Сбере и пишу диссертацию на тему автономных AI-систем.

Роли, отделы, департаменты, иерархии, должностные инструкции, процессы — всё это придумано для людей. Для нас: с одной специализацией (реже – несколькими), 8 часами продуктивности в день, невозможностью удержать в голове контекст всей организации и месяцами на смену профессии.

У LLM-агента ни одного из этих ограничений нет. Он мгновенно меняет специализацию. Он видит полный контекст. Он не потребляет ресурсы, когда не работает. Зачем тогда переносить на него человеческую оргструктуру?

Мы 6 месяцев проверяли эту гипотезу. 25 000 задач. 8 моделей. До 256 агентов. Больше миллиарда токенов.

Результат: назначать роли и выстраивать иерархии для ИИ-агентов — антипаттерн. Система, где агенты сами решают кем быть, превосходит систему с внешним координатором на 14% (p < 0.001). И чем сильнее модель — тем больше автономии она может себе позволить. Мы наблюдаем начало тренда, который может изменить сам подход к проектированию AI-организаций будущего.

Что вы узнаете из этой статьи:

  • Почему система без назначенных ролей работает лучше, чем с координатором

  • Как 8 агентов изобрели 5 006 уникальных специализаций — и ни одна не повторилась дважды в 54% случаев

  • Зачем агенты добровольно отказываются от задач — и почему это повышает качество

  • Какие свойства модели определяют, способна ли она к самоорганизации

  • Что это значит для тех, кто строит мультиагентные системы прямо сейчас

Препринт: submit/7422033 (preprint будет опубликован 01.04)


Масштаб эксперимента

Задач

25 000+

Моделей

8 — Claude, GPT-5.4, GPT-4o, GPT-4.1-mini, DeepSeek v3.2, GLM-5, Gemini-3-flash, GigaChat 2 Max

Агентов

от 4 до 256

Протоколов

8 (4 основных + 4 биоинспирированных)

Сложность задач

4 уровня — от «проверь API» до «CEO vs Legal vs CFO»

Токенов

>1 млрд

Качество каждого решения оценивала независимая модель-судья по 5 критериям (точность, полнота, связность, применимость, соответствие миссии). Итоговая метрика Q — от 0.25 до 1.0. Чем выше, тем лучше.


Как улучшать AI-агентов: вертикально и горизонтально

Сейчас в области AI-агентов активно развиваются два направления:

Вертикальное — как сделать каждого агента сильнее. Сюда относятся самосовершенствующиеся системы вроде Hyperagents, Ouroboros, EvoAgent, ADAS — агент рекурсивно улучшает сам себя.

Горизонтальное — как группа агентов координируется вместе. Не один агент становится умнее, а многие агенты начинают работать как единое целое.

Наше исследование затрагивает оба направления — мы тестировали в том числе эволюционные алгоритмы и биоинспирированные протоколы — но основной фокус на горизонтальной координации. Направления дополняют друг друга: чем сильнее каждый агент, тем больше он выигрывает от самоорганизующихся протоколов.


Четыре способа организовать команду агентов

Главная переменная — как агенты общаются. Модель, задачи, количество — одинаковые.

🏢 Coordinator (координатор): Агент-0 анализирует задачу, назначает роли остальным, они выполняют параллельно.

🔗 Sequential (конвейер): Агенты работают по очереди. Каждый видит, что конкретно сделали предыдущие, и сам решает — кем быть и стоит ли вообще участвовать.

📡 Broadcast (сигнальный): Все объявляют намерения, потом корректируют с учётом друг друга.

🌊 Shared (независимый): Общая память, полная независимость, одновременные решения.

Сравнение: Самоорганизация vs Координатор

Сравнение: Самоорганизация vs Координатор

GIF: Слева — самоорганизация (Sequential, Q=0.938): агенты формируют распределённую сеть. Справа — координатор (Q=0.812): Agent 0 — центральный хаб, единая точка отказа


Результат: самоорганизация уже работает

Протокол

Качество Q

🔗 Sequential

0.724

🏢 Coordinator

0.640

📡 Broadcast

0.510

🌊 Shared

0.503

N=8, GPT-4.1-mini. Разница между лучшим и худшим: 44%, Cohen’s d = 1.86

При масштабировании (N=16, Claude, сложные задачи):

  • Sequential: Q = 0.875

  • Coordinator: Q = 0.767 (+14%, p < 0.001)

Сравнение протоколов

Сравнение протоколов

Сравнение качества по четырём протоколам: пилот (N=8) и масштаб (N=16, Claude)

А вот как это выглядит изнутри — гифка Sequential-протокола на задаче L3:

Sequential в действии

Sequential в действии

GIF: Самоорганизация (Sequential) — агенты формируют роли, распределяют задачи, 15 из 16 участвуют, 1 воздержался

Для сравнения — тот же эксперимент с координатором:

Coordinator в действии

Coordinator в действии

GIF: Координатор (Coordinator) — Agent 0 раздаёт роли, все связи идут через него

Почему Sequential побеждает?

Дело в типе информации. Каждый агент видит факт — что конкретно уже сделано. Не чьи-то намерения (Broadcast — могут измениться). Не историю прошлых задач (Shared — может быть нерелевантна). Не план одного координатора (Coordinator — может ошибиться). А реальные завершённые результаты предшественников.


5 006 уникальных ролей у 8 агентов

Это число, которое удивило нас больше всего.

8 агентов. Несколько сотен задач. И они изобрели 5 006 уникальных названий ролей. При 64 агентах — 5 010 (разница 0.1%!). 54% ролей использованы ровно один раз.

Агенты не «специализируются». Они каждый раз заново определяют свою функцию исходя из контекста задачи.

Heatmap ролей — анимация

Heatmap ролей — анимация

GIF: Слева — Sequential (каждый цвет = уникальная роль, Q=0.938). Справа — Coordinator (Agent 0 всегда красный «координатор», Q=0.812). Роли в Sequential меняются каждую задачу

LLM-агент не ограничен телом, фиксированными навыками, когнитивными лимитами. Зачем ограничивать его назначенной ролью?


Умный агент знает, когда промолчать

В Sequential 38 из 60 неактивных агентов отказались от участия добровольно: «Всё ключевое уже покрыто, я не могу добавить ценности». В Coordinator все 60 были отстранены решением координатора.

И вот что важно: система, где агенты сами молчат, работает лучше (Q = 0.875), чем система, где за них решает координатор (Q = 0.767).

Самоотвод

Самоотвод

*Система сама определяют необходимое количество и состав агентов для решения задачи

Claude отказывается от 8.6% задач — осознанно. Это оптимальный уровень.

В обычной компании сотрудник в простое продолжает получать зарплату. Или, что хуже, «придумывает себе работу». Агент, решивший не участвовать, не тратит ни одного токена.


Масштабирование: 256 агентов, качество не падает

N

Качество Q

Стоимость

8

0.954

3 164 токена

64

0.949

3 537 токенов

256

0.967

При 8-кратном росте стоимость выросла на 11.8%. Качество — в пределах шума (p=0.61 для 64→256). При N=256 ~45% агентов уходят в самоотвод — система сама оптимизирует расходы.

Масштабирование

Масштабирование

Качество стабильно при росте от 8 до 64 агентов, стоимость растёт лишь на 11.8%


DeepSeek = 95% Claude за 1/24 цены

Модель

Q (сложные задачи)

Стоимость

Claude Sonnet 4.6

0.875

$$$

DeepSeek v3.2

0.829

~$$$/24

GLM-5

0.800

~$$$/20

На состязательных задачах (CEO vs Legal vs CFO) DeepSeek даже обгоняет Claude: +6.0%.

Соответствие миссии: 4.00 из 4.00 у обоих. Агенты работают на цель.

Сравнение всех 8 моделей

Сравнение всех 8 моделей

*сложность задачи vs сила модели


Чем сильнее модель — тем больше автономии

Мы наблюдаем чёткий тренд: степень автономии, которую система может себе позволить, растёт вместе со способностями модели.

Модель

При автономии

При фиксированных ролях

Тренд

Claude

Q = 0.594 (лучше +3.5%)

Q = 0.574

Автономия уже помогает

GLM-5

Q = 0.519

Q = 0.574 (лучше +10.6%)

Пока нужна структура

Claude уже выигрывает от свободы. GLM-5 пока нет — но с каждым поколением моделей порог самоорганизации снижается. Sequential — это не потолок автономии, а ступенька: минимальный каркас (очерёдность), внутри которого агенты уже полностью свободны в выборе ролей, участия и стратегии.

Какие свойства модели определяют способность к самоорганизации?

  • Reasoning — способность выстраивать цепочки рассуждений, а не давать поверхностный ответ

  • Self-reflection — способность оценить собственную компетентность и вовремя отказаться от задачи (Claude: 8.6% осознанных самоотводов, GLM-5: 0.8%)

  • Instruction following — точное следование протоколу координации на каждой итерации

  • Structured output — стабильная генерация в заданном формате без потери структуры после нескольких раундов

Модели, у которых эти свойства развиты (Claude, DeepSeek), успешно самоорганизуются. Модели без них — нуждаются во внешней структуре.

По мере того как модели становятся сильнее по всем четырём осям, им нужно всё меньше внешней структуры. Sequential — первый работающий протокол самоорганизации. Следующие поколения моделей смогут больше.


Сложность задач: система сама углубляет иерархию

Качество падает от L1 к L4 (−37.7%), но иерархия спонтанно углубляется: 1.22 → 1.56

L3 vs L4

L3 vs L4

GIF: Как выглядит Sequential на задачах разной сложности — L3 (многоэтапная) vs L4 (состязательная)

Чем сложнее задача, тем глубже структуру выстраивают агенты — без внешних инструкций. Система адаптируется к сложности сама.


Три ингредиента

25 000 задач. 8 моделей. 256 агентов. 8 протоколов. Рецепт:

① Миссия — зачем система существует. Mission Relevance = 4.00/4.00 у лучших моделей при самоорганизации.

② Протокол — как агенты обмениваются информацией. Sequential побеждает Coordinator на 14%.

③ Сильная модель — без неё протокол не раскрывается. Разрыв между моделями — до 174%.

Ни один из трёх пунктов — не «назначь агенту роль». Агент в самоорганизующейся системе — не сотрудник с должностью, а инструмент, который система создаёт, настраивает и использует (или не использует) под конкретную задачу.


Конституция AI-организации

Самоорганизация работает лучше всего с минимальными, но чёткими границами. Sequential — пример: одно простое ограничение (очерёдность) раскрывает полный потенциал автономии агентов (Q=0.875).

🔴 Ядро — миссия, ценности. Только человек. 🟡 Стандарты — метрики, аудит. Человек + система. 🟢 Протоколы — тактические параметры. Полная автономия с A/B тестами.

Принцип: чем ближе к «зачем» — тем больше человека. Чем ближе к «как» — тем больше автономии.


Что делать прямо сейчас

  1. Не назначайте роли. 5 006 уникальных ролей у 8 агентов — агенты находят лучшие роли, чем вы можете придумать.

  2. Используйте Sequential. Агенты по очереди, каждый видит результаты предыдущих. ~50 строк кода. +14% качества.

  3. Масштабируйте моделью, не агентами. 64→256 не даёт прироста. Разница между моделями — до 174%.

  4. Комбинируйте модели. DeepSeek для L1–L2, Claude для L3–L4. 95% качества за 1/24 цены.

  5. Разрешите агентам отказываться. Агент, который знает, когда промолчать — ценнее, чем тот, кто всегда отвечает.


Что дальше

Прямо сейчас мы тестируем результаты этого эксперимента на реальной бизнес-задаче — переносим Sequential-протокол и принципы самоорганизации из лаборатории в рабочий контур. Через 3 месяца расскажем: какие из этих выводов подтвердились «в бою», что пришлось адаптировать, и что нового мы обнаружили, когда агенты встретились с настоящими данными и реальными ограничениями.

Подписывайтесь, чтобы не пропустить продолжение.


Ссылки


Это часть кандидатской диссертации в МФТИ. Вопросы, критика, запросы на код — в комментарии.

Теги: машинное обучение, искусственный интеллект, LLM, мультиагентные системы, самоорганизация, AI agents, DeepSeek, Claude, GPT, координация

Автор: dochkinavika

Источник

Rambler's Top100