kv-cache.

Инференс LLM: от KV-кэша до продакшен-деплоя

Привет! Я Саша Рыжов, MLOps-инженер в hh.ru, уже три года занимаюсь развитием инфраструктуры для искусственного интеллекта. Компании, которые развивают GenAI, рано или поздно приходят к задачам по запуску LLM на собственном железе. В статье я расскажу, как обстоят дела с движками инференса в 2026 году и как запустить on‑prem-прод и не изобрести при этом велосипед.

продолжить чтение

Оставлено в

Походка за двадцать минут и миллион рублей: что RL сделал с двуногими роботами и во что упёрся их «мозг»

За один 2026 год двуногие роботы успели пробежать полумарафон быстрее человеческого рекорда, довести публику до того, что CEO пришлось резать роботу ногу ножницами прямо на сцене, и провалить задачу «пройтись ровно» на презентации за миллионы долларов. В апреле гуманоид Honor Robotics D1 финишировал в Пекине за 50 минут 26 секунд — у людей мировой рекорд, 57:20 Джейкоба Киплимо

продолжить чтение

Оставлено в

Почему дорогая LLM дороже: экономика инференса, которую видно в твоём 5-часовом лимите

Это очень интересный длиннопост о том, что именно показывают 5-ти часовые и недельные лимиты в Claude / GPT / Gemini и что происходит под капотом

продолжить чтение

Оставлено в

Полез в исходники vLLM, чтобы понять, почему один символ убивает prompt caching

В первой части я вывел одно правило и предложил жить по нему: стабильное в начало, изменчивое в хвост

продолжить чтение

Оставлено в

Контекстное окно: почему нейросеть забывает части разговора

Представьте, что вы разговариваете с невероятно умным и эрудированным собеседником. Только очень странным. Несмотря на весь свой интеллект и тысячи фактов, которые он непринужденно рассказывает, он не может ничего запомнить. Ваш диалог с ним каждый раз как бы начинается заново. Вы даете ему вводные, задаете вопросы, что-то уточняете, а он, на основе всего этого, выдает ответ.

продолжить чтение

Оставлено в

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

продолжить чтение

Оставлено в

KV-кэш, экспертное сообщество и критическое мышление

Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие).Механизм внимания всегда работает только назад. От многих экспертов (включая курс Эндрю Ына на Курсере) я слышал такое объяснение: Слово не может ссылаться на слова, которые оно ещё не знает. Назвается это казуальностью (причинностью).Но ведь в предложении “Зелёное яблоко лежит на столе” слово зелёное уже знает про слово “яблоко”, но не может на него сослаться. Непонятно

продолжить чтение

Оставлено в

Куда и почему уходят бабки на нейросети

Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.

продолжить чтение

Оставлено в

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».«Платим за A100, а реально используем лишь 30% ее мощности».Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

kv-cache.

Инференс LLM: от KV-кэша до продакшен-деплоя

Походка за двадцать минут и миллион рублей: что RL сделал с двуногими роботами и во что упёрся их «мозг»

Почему дорогая LLM дороже: экономика инференса, которую видно в твоём 5-часовом лимите

Полез в исходники vLLM, чтобы понять, почему один символ убивает prompt caching

Контекстное окно: почему нейросеть забывает части разговора

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

KV-кэш, экспертное сообщество и критическое мышление

Куда и почему уходят бабки на нейросети

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

kv-cache.