Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24.Это третья статья серии про prefix caching: первая - про экономику кэширования и особенности разных провайдеров, вторая - про антипаттерны в простых сценариях. А здесь про то, как та же механика работает против вас в агентном цикле.TL;DRЕсли на каждом шаге менять tools, system prompt или ранние блоки context, prefix cache будет часто начинаться заново.Поэтому большой, но стабильный список tools иногда дешевле, чем маленький список, который постоянно пересобирается.

Оставлено в

Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

СодержаниеПредыстория и мотивация — коротко о том, зачем я написал этот пост, и краткий обзор территории, куда мы сейчас полезем.Советы, как стабильнее попадать в кэш промпта — зачем вообще нужно кэширование промптов и как повысить долю попаданий в кэш.Основы инференса LLM — основы префилл, декодирования и KV-кэширования.Проблема памяти — почему традиционное выделение KV-кэша не масштабируется.PagedAttention

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

prefix caching.

Как оптимизировать LLM-инференс в 2026 году

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

prefix caching.

Как оптимизировать LLM-инференс в 2026 году

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы