Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
СодержаниеПредыстория и мотивация — коротко о том, зачем я написал этот пост, и краткий обзор территории, куда мы сейчас полезем.Советы, как стабильнее попадать в кэш промпта — зачем вообще нужно кэширование промптов и как повысить долю попаданий в кэш.Основы инференса LLM — основы префилл, декодирования и KV-кэширования.Проблема памяти — почему традиционное выделение KV-кэша не масштабируется.PagedAttention

