«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов

Мультиагентные системы на базе LLM почти всегда строятся вокруг текстовой коммуникации. Агенты объясняют друг другу планы, уточняют шаги, формируют выводы — всё это через генерацию токенов. Такой подход кажется естественным, но он порождает фундаментальные проблемы: текст генерируется медленно, ошибки ^[1] формулировок на ранних этапах распространяются вниз по цепочке, а количество токенов растёт лавинообразно.

Исследователи из Принстона, Стенфорда и Иллинойса предлагают ^[2] другой путь: отказаться от текстовых сообщений между агентами и вместо этого обмениваться скрытыми представлениями модели. Их система, LatentMAS, показывает, что модели могут сотрудничать напрямую в латентном пространстве — там, где их мысли существуют изначально.

Идея: агенты делятся не текстом, а скрытыми состояниями

«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов - 1

LatentMAS меняет саму природу коммуникации. Агент больше не формирует токены. Вместо этого он порождает последовательность скрытых состояний последнего слоя, которые:

сохраняются в KV-кэше трансформера;
передаются следующему агенту;
используются как контекст для дальнейшего рассуждения.

Таким образом, цепочка ризонинга строится полностью внутри латентного пространства, а текст появляется только один раз — на выходе последнего агента.

Это возможно именно потому, что скрытые представления являются истинным носителем смысла в LLM. Текст — лишь удобный для человека интерфейс, но вовсе не оптимальный формат для машинного сотрудничества.

Почему новый подход работает лучше

«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов - 2

Латентные представления гораздо информативнее текста

Каждое скрытое состояние несёт значительно больше семантики, чем один токен. Последовательность скрытых векторов накапливает информацию быстрее и плотнее, чем текстовая цепочка рассуждений. Чтобы выразить текстом тот же объём смыслов, который содержится в короткой латентной последовательности, требуется на порядки больше токенов.

Именно поэтому LatentMAS может выполнять сложные задачи, используя несколько десятков латентных шагов вместо тысяч и десятков тысяч токенов.

Передача KV-кэша полностью сохраняет информацию

KV-кэш хранит промежуточные ключи и значения, которые модель использует в механизме внимания ^[3]. Если один агент передаёт другому свой KV-кэш, второй агент получает тот же контекст, который он получил бы, если бы предыдущий агент выразил свои мысли текстом, а затем этот текст был бы снова пропущен через модель. Но без двух дополнительных стадий: текстовой генерации и повторного кодирования.

В результате передача KV-кэша обеспечивает:

отсутствие искажений, связанных с текстовой формой;
отсутствие издержек на генерацию токенов;
более устойчивое и непрерывное рассуждение.

Снижение вычислительной сложности

Переход к латентным шагам резко сокращает объём операций. Латентные шаги не требуют работы с выходным словарём, а последовательность скрытых векторов короче текстовой. Это позволяет достичь кратного ускорения по сравнению с TextMAS, даже если TextMAS оптимизирован через vLLM.

Архитектура LatentMAS: последовательные и иерархические схемы

LatentMAS не меняет логику ^[4] мультиагентной оркестрации — только способ передачи информации.

«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов - 3

Агенты выполняют функции планировщика, критика, рефайнера и решателя. Раньше они передавали друг другу текст, теперь — латентные представления.

Hierarchical MAS

Несколько доменных агентов (например, математический, научный ^[5] и кодовый) формируют свои рассуждения независимо, а summarizer объединяет их, опираясь на полученные KV-кэши.

Обе архитектуры демонстрируют одинаковый прирост производительности при переходе от текстового обмена к латентному.

Результаты: точнее, быстрее, экономичнее

«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов - 4

Эксперименты проводились на девяти бенчмарках: GSM8K, AIME24/25, GPQA, MedQA, ARC-Easy/Challenge, MBPP-Plus, HumanEval-Plus.

Рост точности

LatentMAS повышает точность относительно одиночной модели двузначными значениями, а относительно текстового мультиагентного режима — несколькими процентами на самых сложных задачах. Это особенно заметно в задачах, где TextMAS склонен к накоплению ошибок.

Ускорение

Система стабильно показывает ускорение инференса в четыре и более раз, даже если baseline использует vLLM. На отдельных задачах достигается семикратное ускорение.

Снижение числа токенов

Выигрыш достигает 70–80 процентов по сравнению с текстовыми мультиагентными системами. Даже относительно одиночной модели LatentMAS сокращает генерацию токенов, поскольку почти вся работа выполняется в латентном пространстве.

Латентные мысли: как модели понимают собственные представления

«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов - 5

Авторы визуализируют распределение латентных скрытых состояний и эмбеддингов токенов. Интересное наблюдение: латентные мысли занимают тот же смысловой регион, что и токены, которые модель обычно генерирует. Но при этом покрывают более широкую область эмбеддинг-пространства.

Это показывает, что латентные векторы не просто замещают токены — они несут более гибкую и богатую структуру смыслов, чем их текстовая форма.

Пример: когда TextMAS ошибается, а LatentMAS успешно решает задачу

В статье разбирается задача из GSM8K. В TextMAS ошибка, появившаяся в рассуждении планировщика, постепенно распространяется дальше. Рефайнер уточняет уже искажённую логику, и решатель приходит к неверному ответу.

LatentMAS работает иначе. Следующий агент получает не текстовые формулировки предыдущего, а его полное семантическое состояние. Это снижает влияние ошибок, возникающих на уровне словесного выражения мысли, и позволяет итоговому агенту реконструировать правильное рассуждение. Именно поэтому LatentMAS даёт корректный ответ там, где TextMAS ошибается.

Ограничения и перспективы

LatentMAS предполагает совместимость архитектур агентов, поскольку их скрытые пространства должны совпадать. В будущем это можно решить адаптерами или дополнительным обучением ^[6]. Потенциальное развитие — создание обучаемых латентных протоколов, где агенты оптимизируют взаимодействие внутри скрытого пространства так же, как сегодня они оптимизируют генерацию текста.

Но уже сейчас LatentMAS показывает, что текст — не единственный и далеко не самый эффективный язык общения между моделями. Переход к латентному взаимодействию открывает путь к новому поколению мультиагентных систем, способных сотрудничать быстрее, глубже и устойчивее.

Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» ^[7] — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Автор: madballer34

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22751

URLs in this post:

[1] ошибки: http://www.braintools.ru/article/4192

[2] предлагают: https://arxiv.org/pdf/2511.20639

[3] внимания: http://www.braintools.ru/article/7595

[4] логику: http://www.braintools.ru/article/7640

[5] научный: http://www.braintools.ru/article/7634

[6] обучением: http://www.braintools.ru/article/5125

[7] «Голос Технократии»: https://t.me/+vvm8PwCuv-EyZGY6

[8] Источник: https://habr.com/ru/companies/technokratos/articles/973358/?utm_source=habrahabr&utm_medium=rss&utm_campaign=973358

Нажмите здесь для печати.