tokens.

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Сколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLMМы в LLMStart.ru

Оставлено в

Токен-оптимизация агентов: на что уходит контекстное окно MCP

Чем больше задач берёт на себя агент, тем чаще он упирается не в качество модели, а в контекстное окно: туда нужно уместить инструкции, историю диалога, схемы инструментов и всё, что эти инструменты возвращают. Я считаю, что токен-оптимизация агентов — то, как мы расходуем это окно — станет одним из ключевых направлений ближайших лет, наравне с выбором модели и качеством промпта.

продолжить чтение

Оставлено в

Показываю, как я заменил JSON на TOON в LLM-промптах и сэкономил 40% токенов

Привет! Меня зовут Андрей, я фронтенд-разработчик в Cloud.ru

продолжить чтение

Оставлено в

OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)

В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, до ноября 2025 года).Ключевые выводы 👇Open source закрепился на ~30% и привёл с собой Китай.Открытые модели стабильно держат около трети токенов. Особенно выросли китайские OSS (DeepSeek, Qwen, Kimi): с ~1–2% до до 30% трафика в отдельные недели, в среднем ~13%.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

tokens.

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Токен-оптимизация агентов: на что уходит контекстное окно MCP

Показываю, как я заменил JSON на TOON в LLM-промптах и сэкономил 40% токенов

OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

tokens.

Cколько железа нужно ИИ-агенту? Как мы считали ресурсы для on-premise LLM и почему калькуляторы ошиблись в 5 раз

Токен-оптимизация агентов: на что уходит контекстное окно MCP

Показываю, как я заменил JSON на TOON в LLM-промптах и сэкономил 40% токенов

OpenRouter выкатили огромное исследование: как реально используют LLM (анализ 100 трлн токенов)