vllm.

Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни

Коротко о себе — чтобы был контекст.Я Python-разработчик с несколькими годами в коммерческой разработке. Последние полтора года плотно занимаюсь AI-интеграциями: строю агентов на LangGraph, разворачиваю локальные LLM через vLLM и llama.cpp, делаю RAG-системы с pgvector и Quadrant, пишу MCP-серверы, настраиваю ASR/TTS пайплайны на нескольких языках включая узбекский.За плечами — реальные внедрения для бизнеса и госструктур, работающая инфраструктура на двух GPU-серверах, агенты которые крутятся в продакшне прямо сейчас. Пишу на Хабре, веду Telegram-канал про Python и AI на 6000+ подписчиков.В общем, не теория.

продолжить чтение

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Привет, Хабр! Меня зовут Кирилл Нетреба, я Backend-ML-инженер в Авито. В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста. Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency.Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.

продолжить чтение

Как развернуть Qwen в облаке так, чтобы модель не была доступна из интернета

продолжить чтение

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

продолжить чтение

Как мы научили ИИ подбирать мебель по архитектурным чертежам

продолжить чтение

ИИ Анализ новостного сентимента как торговый сигнал

Исходный код торговой стратегии опубликован по ссылкепо

продолжить чтение

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

В процессе подготовки статьи про экономику кэширования, собрал несколько анти-паттернов, способных все сломать. Сначала были мысли о том, что это будет короткая врезка в конце, но подняв заметки и сделав пару ресерчей - стало понятно, что это вообще отдельная тема.Таких поломок с prefix_cache много, но механика у них схожая. В этой статье попытался свести все к трем причинам: у запросов перестаёт совпадать начало, одинаковые запросы попадают на разные машины, или прогретый кэш не доживает до следующего обращения.

продолжить чтение

vLLM Production Stack. Часть 1: Базовые возможности vLLM

ОглавлениеДля удобства навигацииВступлениеТестовое окружение Как устроены примеры в статьеЧто такое vLLM vLLM Production StackКакие модели можно запуститьЗапуск моделей в разных режимах Скачивание моделиЗапуск Qwen3-8BВключение вызова инструментов (tool-calling)

продолжить чтение

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

Привет! Меня зовут Елена, я занимаюсь ресерчем и обучением моделей машинного обучения в компании NtechLab.В прошлом году мне захотелось поучаствовать в крупнейшем российском хакатоне “Лидеры Цифровой трансформации”. И, собрав команду, неожиданно, мы заняли призовое место. О том, как мы сформировали команду, как проходил хакатон, о наших эмоциях и настрое вы можете прочитать в первой части статьи . Я же хочу более детально рассказать о технической стороне решения. 

продолжить чтение

Как мы создали open-source кодового агента, работающего с любыми локальными моделями

PocketCoder: история созданияСтыдно признаться, но я все больше и больше отдаю все на откуп LLM моделям, позволяя им глубже интегрироваться в мои задачи. Внутри постоянный страх, что навык уйдёт - забуду, как писать, как читать, как вообще понимать код. Но с другой стороны, все эти современные инструменты не оставляют другого выбора, как просто брать и интегрировать в свои проекты.Три недели назад нашей команде из BVM пришёл коллективный счёт на Claude Code в размере $120. Честно говоря, мы платим за подписку уже год, не считая редких API-запросов, которые растворились на фоне такой большой для нас суммы денег.

продолжить чтение

123