vllm.
ИИ Анализ новостного сентимента как торговый сигнал
Исходный код торговой стратегии опубликован по ссылкепо
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
В процессе подготовки статьи про экономику кэширования, собрал несколько анти-паттернов, способных все сломать. Сначала были мысли о том, что это будет короткая врезка в конце, но подняв заметки и сделав пару ресерчей - стало понятно, что это вообще отдельная тема.Таких поломок с prefix_cache много, но механика у них схожая. В этой статье попытался свести все к трем причинам: у запросов перестаёт совпадать начало, одинаковые запросы попадают на разные машины, или прогретый кэш не доживает до следующего обращения.
vLLM Production Stack. Часть 1: Базовые возможности vLLM
ОглавлениеДля удобства навигацииВступлениеТестовое окружение Как устроены примеры в статьеЧто такое vLLM vLLM Production StackКакие модели можно запуститьЗапуск моделей в разных режимах Скачивание моделиЗапуск Qwen3-8BВключение вызова инструментов (tool-calling)
Модели, гипотезы и планирование: хроники ML-инженера на крупнейшем хакатоне
Привет! Меня зовут Елена, я занимаюсь ресерчем и обучением моделей машинного обучения в компании NtechLab.В прошлом году мне захотелось поучаствовать в крупнейшем российском хакатоне “Лидеры Цифровой трансформации”. И, собрав команду, неожиданно, мы заняли призовое место. О том, как мы сформировали команду, как проходил хакатон, о наших эмоциях и настрое вы можете прочитать в первой части статьи . Я же хочу более детально рассказать о технической стороне решения.
Как мы создали open-source кодового агента, работающего с любыми локальными моделями
PocketCoder: история созданияСтыдно признаться, но я все больше и больше отдаю все на откуп LLM моделям, позволяя им глубже интегрироваться в мои задачи. Внутри постоянный страх, что навык уйдёт - забуду, как писать, как читать, как вообще понимать код. Но с другой стороны, все эти современные инструменты не оставляют другого выбора, как просто брать и интегрировать в свои проекты.Три недели назад нашей команде из BVM пришёл коллективный счёт на Claude Code в размере $120. Честно говоря, мы платим за подписку уже год, не считая редких API-запросов, которые растворились на фоне такой большой для нас суммы денег.
Как работает кэширование промптов — PagedAttention и автоматическое кэширование префикса плюс практические советы
СодержаниеПредыстория и мотивация — коротко о том, зачем я написал этот пост, и краткий обзор территории, куда мы сейчас полезем.Советы, как стабильнее попадать в кэш промпта — зачем вообще нужно кэширование промптов и как повысить долю попаданий в кэш.Основы инференса LLM — основы префилл, декодирования и KV-кэширования.Проблема памяти — почему традиционное выделение KV-кэша не масштабируется.PagedAttention
Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)
В интернете огромное количество гайдов на тему транскрибации аудио и анализа совещаний через ИИ. Но все они описывают разрозненные решения: отдельно транскрибируй аудио, затем отправь в ChatGPT, и так далее.Я решил комплексно подойти к этому вопросу и навайбкодить веб-приложение, где все задачи решаются в одном окне, а именно:Хранение транскрипцийЧат с ИИ по содержимому встречиСтруктурированные протоколы (задачи, решения, события)Рекомендации ИИ на базе текущей и предыдущих встречИнтеграция с CRM в один клик (beta)
Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5
Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!Базовые задачи:Нужно, чтобы это все работало локальноСистема должна принимать разные форматы (.doc, .pdf, .png)Возможность создавать динамические таблицы, куда ИИ будет заполнять сама информацию, а не хардкодить для каждой категории паспорта свои отчетыЖелательно, чтобы все работало на одной видеокарте (в моем случае 3090 на 24GB VRAM)
Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве
Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».«Платим за A100, а реально используем лишь 30% ее мощности».Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

