vllm.
Как мы создали open-source кодового агента, работающего с любыми локальными моделями
PocketCoder: история созданияСтыдно признаться, но я все больше и больше отдаю все на откуп LLM моделям, позволяя им глубже интегрироваться в мои задачи. Внутри постоянный страх, что навык уйдёт - забуду, как писать, как читать, как вообще понимать код. Но с другой стороны, все эти современные инструменты не оставляют другого выбора, как просто брать и интегрировать в свои проекты.Три недели назад нашей команде из BVM пришёл коллективный счёт на Claude Code в размере $120. Честно говоря, мы платим за подписку уже год, не считая редких API-запросов, которые растворились на фоне такой большой для нас суммы денег.
Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
СодержаниеПредыстория и мотивация — коротко о том, зачем я написал этот пост, и краткий обзор территории, куда мы сейчас полезем.Советы, как стабильнее попадать в кэш промпта — зачем вообще нужно кэширование промптов и как повысить долю попаданий в кэш.Основы инференса LLM — основы префилл, декодирования и KV-кэширования.Проблема памяти — почему традиционное выделение KV-кэша не масштабируется.PagedAttention
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)
В интернете огромное количество гайдов на тему транскрибации аудио и анализа совещаний через ИИ. Но все они описывают разрозненные решения: отдельно транскрибируй аудио, затем отправь в ChatGPT, и так далее.Я решил комплексно подойти к этому вопросу и навайбкодить веб-приложение, где все задачи решаются в одном окне, а именно:Хранение транскрипцийЧат с ИИ по содержимому встречиСтруктурированные протоколы (задачи, решения, события)Рекомендации ИИ на базе текущей и предыдущих встречИнтеграция с CRM в один клик (beta)
Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5
Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!Базовые задачи:Нужно, чтобы это все работало локальноСистема должна принимать разные форматы (.doc, .pdf, .png)Возможность создавать динамические таблицы, куда ИИ будет заполнять сама информацию, а не хардкодить для каждой категории паспорта свои отчетыЖелательно, чтобы все работало на одной видеокарте (в моем случае 3090 на 24GB VRAM)
Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве
Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».«Платим за A100, а реально используем лишь 30% ее мощности».Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.
Внутри vLLM: Анатомия системы инференса LLM с высокой пропускной способностью
Привет! Этот пост — перевод очень хардовой статьи про внутренности vLLM и того, как устроен инференс LLM. Переводить было сложно из-за англицизмов и отсутствия устоявшегося перевода многих терминов, но это слишком классная статья, и она обязана быть на русском языке! А дальше — слово автору:От paged attention, непрерывного батчинга, кэширования префиксов , specdec и т.д. — до мульти-GPU и мультинодового динамического сервинга LLM под нагрузкой.
Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang
ВведениеВсем привет! Меня зовут Максимов Максим, я — NLP‑инженер в компании red_mad_robot. Сегодня я хотел бы представить вам практическое руководство по запуску и использованию популярных инструментов для работы с LLM. Целью этой работы было познакомиться и опробовать следующие инструменты: OllamaLM StudiovLLMTriton llama.cppSGLang
Как мы научили LLM отвечать на вопросы абитуриентов в крупнейшем вузе страны
Поступление в университет — это всегда стресс. Абитуриенты и их родители засыпают приёмные комиссии тысячами одинаковых вопросов: какие проходные баллы, как правильно заполнить заявление, что делать в случае ошибки. Летом нагрузка достигает пика: телефоны и почта разрываются, а сотрудники комиссии работают фактически в режиме «колл-центра».
GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц
С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал. В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!С чего начнем? Установите Ubuntu 22.04.5 LTSСначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия vllm 0.10.1 и другие важные зависимости.
GPT-OSS-20B – 120B: Сухие цифры после реальных тестов
OpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090. Что тестировалось:

