vllm.

Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни

Коротко о себе — чтобы был контекст.Я Python-разработчик с несколькими годами в коммерческой разработке. Последние полтора года плотно занимаюсь AI-интеграциями: строю агентов на LangGraph, разворачиваю локальные LLM через vLLM и llama.cpp, делаю RAG-системы с pgvector и Quadrant, пишу MCP-серверы, настраиваю ASR/TTS пайплайны на нескольких языках включая узбекский.За плечами — реальные внедрения для бизнеса и госструктур, работающая инфраструктура на двух GPU-серверах, агенты которые крутятся в продакшне прямо сейчас. Пишу на Хабре, веду Telegram-канал про Python и AI на 6000+ подписчиков.В общем, не теория.

продолжить чтение

Оставлено в

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Привет, Хабр! Меня зовут Кирилл Нетреба, я Backend-ML-инженер в Авито. В этой статье я разберу, как мы научили платформу отыскивать нужные пользователю объявления, даже если в них нет соответствующего запросу текста. Мы препарируем связку из Qwen2.5-VL, фреймворка vLLM и LoRA-адаптеров, а также заглянем в бэкенд-инфраструктуру, которая переваривает миллионы обновлений в сутки без деградации latency.Это история о том, как в эпоху, когда традиционный полнотекстовый поиск бессилен перед лаконичностью пользователей, ему на помощь приходит машина, обученная на изображениях и языке.

продолжить чтение

Оставлено в

Как развернуть Qwen в облаке так, чтобы модель не была доступна из интернета

продолжить чтение

Оставлено в

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

продолжить чтение

Оставлено в

Как мы научили ИИ подбирать мебель по архитектурным чертежам

продолжить чтение

Оставлено в

ИИ Анализ новостного сентимента как торговый сигнал

Исходный код торговой стратегии опубликован по ссылкепо

продолжить чтение

Оставлено в

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

В процессе подготовки статьи про экономику кэширования, собрал несколько анти-паттернов, способных все сломать. Сначала были мысли о том, что это будет короткая врезка в конце, но подняв заметки и сделав пару ресерчей - стало понятно, что это вообще отдельная тема.Таких поломок с prefix_cache много, но механика у них схожая. В этой статье попытался свести все к трем причинам: у запросов перестаёт совпадать начало, одинаковые запросы попадают на разные машины, или прогретый кэш не доживает до следующего обращения.

продолжить чтение

Оставлено в

vLLM Production Stack. Часть 1: Базовые возможности vLLM

ОглавлениеДля удобства навигацииВступлениеТестовое окружение Как устроены примеры в статьеЧто такое vLLM vLLM Production StackКакие модели можно запуститьЗапуск моделей в разных режимах Скачивание моделиЗапуск Qwen3-8BВключение вызова инструментов (tool-calling)

продолжить чтение

Оставлено в

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

Привет! Меня зовут Елена, я занимаюсь ресерчем и обучением моделей машинного обучения в компании NtechLab.В прошлом году мне захотелось поучаствовать в крупнейшем российском хакатоне “Лидеры Цифровой трансформации”. И, собрав команду, неожиданно, мы заняли призовое место. О том, как мы сформировали команду, как проходил хакатон, о наших эмоциях и настрое вы можете прочитать в первой части статьи . Я же хочу более детально рассказать о технической стороне решения.

продолжить чтение

Оставлено в

Как мы создали open-source кодового агента, работающего с любыми локальными моделями

PocketCoder: история созданияСтыдно признаться, но я все больше и больше отдаю все на откуп LLM моделям, позволяя им глубже интегрироваться в мои задачи. Внутри постоянный страх, что навык уйдёт - забуду, как писать, как читать, как вообще понимать код. Но с другой стороны, все эти современные инструменты не оставляют другого выбора, как просто брать и интегрировать в свои проекты.Три недели назад нашей команде из BVM пришёл коллективный счёт на Claude Code в размере $120. Честно говоря, мы платим за подписку уже год, не считая редких API-запросов, которые растворились на фоне такой большой для нас суммы денег.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

vllm.

Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Как развернуть Qwen в облаке так, чтобы модель не была доступна из интернета

Практическое руководство по Qwen: установка, настройка vLLM и работа через API

Как мы научили ИИ подбирать мебель по архитектурным чертежам

ИИ Анализ новостного сентимента как торговый сигнал

Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM

vLLM Production Stack. Часть 1: Базовые возможности vLLM

Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне

Как мы создали open-source кодового агента, работающего с любыми локальными моделями

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

vllm.