- BrainTools - https://www.braintools.ru -
Мультиагентные системы на базе LLM почти всегда строятся вокруг текстовой коммуникации. Агенты объясняют друг другу планы, уточняют шаги, формируют выводы — всё это через генерацию токенов. Такой подход кажется естественным, но он порождает фундаментальные проблемы: текст генерируется медленно, ошибки [1] формулировок на ранних этапах распространяются вниз по цепочке, а количество токенов растёт лавинообразно.
Исследователи из Принстона, Стенфорда и Иллинойса предлагают [2] другой путь: отказаться от текстовых сообщений между агентами и вместо этого обмениваться скрытыми представлениями модели. Их система, LatentMAS, показывает, что модели могут сотрудничать напрямую в латентном пространстве — там, где их мысли существуют изначально.

LatentMAS меняет саму природу коммуникации. Агент больше не формирует токены. Вместо этого он порождает последовательность скрытых состояний последнего слоя, которые:
сохраняются в KV-кэше трансформера;
передаются следующему агенту;
используются как контекст для дальнейшего рассуждения.
Таким образом, цепочка ризонинга строится полностью внутри латентного пространства, а текст появляется только один раз — на выходе последнего агента.
Это возможно именно потому, что скрытые представления являются истинным носителем смысла в LLM. Текст — лишь удобный для человека интерфейс, но вовсе не оптимальный формат для машинного сотрудничества.

Каждое скрытое состояние несёт значительно больше семантики, чем один токен. Последовательность скрытых векторов накапливает информацию быстрее и плотнее, чем текстовая цепочка рассуждений. Чтобы выразить текстом тот же объём смыслов, который содержится в короткой латентной последовательности, требуется на порядки больше токенов.
Именно поэтому LatentMAS может выполнять сложные задачи, используя несколько десятков латентных шагов вместо тысяч и десятков тысяч токенов.
KV-кэш хранит промежуточные ключи и значения, которые модель использует в механизме внимания [3]. Если один агент передаёт другому свой KV-кэш, второй агент получает тот же контекст, который он получил бы, если бы предыдущий агент выразил свои мысли текстом, а затем этот текст был бы снова пропущен через модель. Но без двух дополнительных стадий: текстовой генерации и повторного кодирования.
В результате передача KV-кэша обеспечивает:
отсутствие искажений, связанных с текстовой формой;
отсутствие издержек на генерацию токенов;
более устойчивое и непрерывное рассуждение.
Переход к латентным шагам резко сокращает объём операций. Латентные шаги не требуют работы с выходным словарём, а последовательность скрытых векторов короче текстовой. Это позволяет достичь кратного ускорения по сравнению с TextMAS, даже если TextMAS оптимизирован через vLLM.
LatentMAS не меняет логику [4] мультиагентной оркестрации — только способ передачи информации.

Агенты выполняют функции планировщика, критика, рефайнера и решателя. Раньше они передавали друг другу текст, теперь — латентные представления.
Несколько доменных агентов (например, математический, научный [5] и кодовый) формируют свои рассуждения независимо, а summarizer объединяет их, опираясь на полученные KV-кэши.
Обе архитектуры демонстрируют одинаковый прирост производительности при переходе от текстового обмена к латентному.

Эксперименты проводились на девяти бенчмарках: GSM8K, AIME24/25, GPQA, MedQA, ARC-Easy/Challenge, MBPP-Plus, HumanEval-Plus.
LatentMAS повышает точность относительно одиночной модели двузначными значениями, а относительно текстового мультиагентного режима — несколькими процентами на самых сложных задачах. Это особенно заметно в задачах, где TextMAS склонен к накоплению ошибок.
Система стабильно показывает ускорение инференса в четыре и более раз, даже если baseline использует vLLM. На отдельных задачах достигается семикратное ускорение.
Выигрыш достигает 70–80 процентов по сравнению с текстовыми мультиагентными системами. Даже относительно одиночной модели LatentMAS сокращает генерацию токенов, поскольку почти вся работа выполняется в латентном пространстве.

Авторы визуализируют распределение латентных скрытых состояний и эмбеддингов токенов. Интересное наблюдение: латентные мысли занимают тот же смысловой регион, что и токены, которые модель обычно генерирует. Но при этом покрывают более широкую область эмбеддинг-пространства.
Это показывает, что латентные векторы не просто замещают токены — они несут более гибкую и богатую структуру смыслов, чем их текстовая форма.
В статье разбирается задача из GSM8K. В TextMAS ошибка, появившаяся в рассуждении планировщика, постепенно распространяется дальше. Рефайнер уточняет уже искажённую логику, и решатель приходит к неверному ответу.
LatentMAS работает иначе. Следующий агент получает не текстовые формулировки предыдущего, а его полное семантическое состояние. Это снижает влияние ошибок, возникающих на уровне словесного выражения мысли, и позволяет итоговому агенту реконструировать правильное рассуждение. Именно поэтому LatentMAS даёт корректный ответ там, где TextMAS ошибается.
LatentMAS предполагает совместимость архитектур агентов, поскольку их скрытые пространства должны совпадать. В будущем это можно решить адаптерами или дополнительным обучением [6]. Потенциальное развитие — создание обучаемых латентных протоколов, где агенты оптимизируют взаимодействие внутри скрытого пространства так же, как сегодня они оптимизируют генерацию текста.
Но уже сейчас LatentMAS показывает, что текст — не единственный и далеко не самый эффективный язык общения между моделями. Переход к латентному взаимодействию открывает путь к новому поколению мультиагентных систем, способных сотрудничать быстрее, глубже и устойчивее.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» [7] — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Автор: madballer34
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22751
URLs in this post:
[1] ошибки: http://www.braintools.ru/article/4192
[2] предлагают: https://arxiv.org/pdf/2511.20639
[3] внимания: http://www.braintools.ru/article/7595
[4] логику: http://www.braintools.ru/article/7640
[5] научный: http://www.braintools.ru/article/7634
[6] обучением: http://www.braintools.ru/article/5125
[7] «Голос Технократии»: https://t.me/+vvm8PwCuv-EyZGY6
[8] Источник: https://habr.com/ru/companies/technokratos/articles/973358/?utm_source=habrahabr&utm_medium=rss&utm_campaign=973358
Нажмите здесь для печати.