Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token
Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”
Роботы заменят людей?
Сразу прошу лояльно отнестись к моей, местами чрезмерной эмоциональности, но, видит Бог, я держалась как могла. Уже несколько взрослых, умных и уважаемых экспертов попытались меня переубедить, что к 35 году грядет «передел мира», где массово живые специалисты будут заменяться роботами... Данные фигуры меня особенно повеселили: персонаж 1, персонаж 2.
Я удалил backpropagation из нейросети. Она обучилась методами XIX века
Все началось с того, что я открыл PyTorch и удалил из модели .backward(). Взял и стер как строчку, которая «вроде ничего не делала». Только вот эта строчка делала вообще все.
Контекст – ветер перемен, сдувающий капитализацию облачных решений и рабочие места
Недавно я натолкнулся на статью технологического аналитика Эвана Армстронга Context is King. Аргументы, изложенные в ней, по мнению моих знакомых экспертов отрасли, звучат весомо, логично и даже пророчески. Поэтому перспективы изменений в повседневной работе и процессах компаний в ближайшем будущем для одних выглядят многообещающими, а для других — тревожными.Прогнозы о том, что дальнейшее развитие искусственного интеллекта может как цунами смыть с рынка труда десятки миллионов рабочих мест, уже не кажутся фантастикой — скорее, это новая, неизбежная реальность.
Как я спас агентов в VS Code от передоза инструментами, сжав зоопарк MCP-серверов в один Go-бинарник
Когда вы ставите в VS Code популярные агентные расширения (Cline, Roo Code, Kilo), быстро выясняется одна мерзкая вещь. Обычно начинаешь подключать к ним новые инструменты быстрее , чем LLM под их капотом способна их адекватно переварить.Сначала все выглядит безобидно. Вы подключаете к редактору пару MCP-серверов: один для файлов, другой для поиска. Агент радуется, вы радуетесь, всё работает. Но потом начинается: "О, прикручу-ка я еще сервер для базы данных... и GitHub... и внутреннюю Jira... и вон тот OpenAPI-каталог".В какой-то момент вы открываете свой mcp.json и видите там 25 серверов. А агент начинает творить дичь.
Как мы провели лоботомию 744-миллиардной нейросети GLM-5.1, чтобы запустить её на 16 ГБ VRAM
Современный мир Open-Source AI несправедлив. Когда ZhipuAI выкатили свою новую архитектуру GLM-5.1, в её паспорте значилась цифра, от которой у владельцев домашних ПК темнеет в глазах — 744 миллиарда параметров. Чтобы просто поднять эту MoE-махину (Mixture of Experts) в оперативную память, нужна ферма топовых ускорителей за миллионы рублей.У нас не было фермы. У нас была бесплатная виртуальная машина на Kaggle с одной старушкой NVIDIA T4 на 16 ГБ VRAM. И у нас была концепция экстремального MLOps под кодовым названием «Russian Winter 26».
Квантовые данные для ML-инженера: без формул, но с реальными примерами
Развитие квантовых технологий идет очень бурными темпами
Делаем лимиты ИИ почти бесконечными: умный роутер, который режет затраты на токены в разы и делает их почти бесплатными
У меня несколько пет-проектов, которые дёргают LLM через API. Чат-бот для внутренних задач, штука для генерации тестов, пара скриптов для код-ревью. Ничего масштабного, но за последнюю неделю счёт за API вышел $47 — и это только мои личные эксперименты.Проблема очевидная: я гоняю всё через Claude Sonnet, хотя половина запросов — тривиальщина. «Переименуй переменные в этом куске», «напиши docstring», «переведи этот текст». Любая модель за $0.10 / M токенов справится, а я плачу $3 / $15 .Ручной if/else по типу задачи — хрупко и лень. Начал смотреть на LLM-роутеры и наткнулся на ClawRouter. Потестировал неделю, расскажу что получилось.
Как с помощью A-B-платформы найти лучшее решение, если вариантов слишком много, чтобы тестировать все?
Как найти сокровище, если вариантов, где оно может быть, очень много?

