LatentMAS: Секрет AI-агентов, которые думают без слов, работают точнее и экономят до 80% токенов
Если отбросить маркетинговый флёр вокруг «агентных систем», реальность довольно прозаична: как только вы собираете цепочку из нескольких LLM‑агентов, ваш счёт за токены и latency улетает в стратосферу. Судя по экспериментам в LatentMAS, классический текстовый multi‑agent‑пайплайн для олимпиадных задач уровня AIME‑24/25 легко выжигает десятки тысяч выходных токенов на одну единственную задачу, нередко переваливая за планку в 20к токенов для одного решения. И это не абстрактная проблема академиков: любой, кто пытался склеить ReAct/
Оптимизация LLM: LoRA и QLoRA
Масштабируемые методы тонкой настройки для больших языковых моделей.С появлением ChatGPT стало очевидно, какими многообещающими могут быть большие языковые модели, способные понимать естественный язык и точно отвечать на запросы пользователей. Таким моделям присуще огромное количество параметров: современные LLM нередко содержат их более миллиарда.
Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста
При работе с API больших языковых моделей я привык к определенной предсказуемости. Для моих исследовательских задач, экспериментов с кодом и повседневной рутины дневные расходы на API обычно колеблются в предсказуемом и комфортном диапазоне 3-4 евро. Это стало своего рода фоновым шумом, константой, на которую я перестал обращать внимание.Но в конце июля я увидел в биллинге Google API картину, которая заставила меня остановиться и задуматься. Вместо привычной цифры там красовалась аномалия — €51.

