prefix caching.

Как оптимизировать LLM-инференс в 2026 году

продолжить чтение

Короткий промпт ≠ дешёвый промпт: как оптимизация ломает prefix cache в LLM-агентах

Привет, Хабр! Меня зовут Сергей Нотевский, я AI Platform Lead в Битрикс24.Это третья статья серии про prefix caching: первая - про экономику кэширования и особенности разных провайдеров, вторая - про антипаттерны в простых сценариях. А здесь про то, как та же механика работает против вас в агентном цикле.TL;DRЕсли на каждом шаге менять tools, system prompt или ранние блоки context, prefix cache будет часто начинаться заново.Поэтому большой, но стабильный список tools иногда дешевле, чем маленький список, который постоянно пересобирается.

продолжить чтение

Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы

СодержаниеПредыстория и мотивация — коротко о том, зачем я написал этот пост, и краткий обзор территории, куда мы сейчас полезем.Советы, как стабильнее попадать в кэш промпта — зачем вообще нужно кэширование промптов и как повысить долю попаданий в кэш.Основы инференса LLM — основы префилл, декодирования и KV-кэширования.Проблема памяти — почему традиционное выделение KV-кэша не масштабируется.PagedAttention

продолжить чтение