KV-кэш.

LatentMAS: Секрет AI-агентов, которые думают без слов, работают точнее и экономят до 80% токенов

Если отбросить маркетинговый флёр вокруг «агентных систем», реальность довольно прозаична: как только вы собираете цепочку из нескольких LLM‑агентов, ваш счёт за токены и latency улетает в стратосферу. Судя по экспериментам в LatentMAS, классический текстовый multi‑agent‑пайплайн для олимпиадных задач уровня AIME‑24/25 легко выжигает десятки тысяч выходных токенов на одну единственную задачу, нередко переваливая за планку в 20к токенов для одного решения. И это не абстрактная проблема академиков: любой, кто пытался склеить ReAct/

продолжить чтение

Rambler's Top100