kv.
Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?
Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.На момент, когда я пишу эту статью, закэшированные входные токены стоят в долларах за токен примерно в 10 раз дешевле обычных входных токенов — как в API OpenAI, так и Anthropic.

