Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз
Сколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLMМы в LLMStart.ru
Токен-оптимизация агентов: на что уходит контекстное окно MCP
Чем больше задач берёт на себя агент, тем чаще он упирается не в качество модели, а в контекстное окно: туда нужно уместить инструкции, историю диалога, схемы инструментов и всё, что эти инструменты возвращают. Я считаю, что токен-оптимизация агентов — то, как мы расходуем это окно — станет одним из ключевых направлений ближайших лет, наравне с выбором модели и качеством промпта.
Показываю, как я заменил JSON на TOON в LLM-промптах и сэкономил 40% токенов
Привет! Меня зовут Андрей, я фронтенд-разработчик в Cloud.ru
OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).Ключевые выводы 👇Open source закрепился на ~30% и привёл с собой Китай.Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.

