инфраструктура.

ML для больших компаний: от DevBox до платформы на тысячу пользователей

Привет, Хабр! Меня зовут Антон Алексеев, я MLOps-инженер в Авито. В статье расскажу, как мы строим ML-платформу на базе Kubeflow. От первых DevBox-решений мы пришли к набору небольших юнит-платформ, которые разные команды развивали под свои бизнес-задачи и связывали между собой. Со временем возникла задача объединить эти решения в единую платформу. Поделюсь, как мы это делали, с какими проблемами столкнулись и как их решили. И немного о том, как должны выглядеть агентские платформы, когда за управление инфраструктурой отвечают агенты. 

продолжить чтение

«Взрыв поверхности» или «вертикальный срез»: какой подход выбрать при построении MLOps-платформы?

Привет, Хабр! Меня зовут Кирилл Кулаков, я занимаюсь развитием MLOps-платформы в Uzum Fintech.Недавно у нас в команде разгорелся спор о том, как правильно разворачивать платформы. Причем разгорелся он уже после того, как мы совместно всё спроектировали, двигались какое-то время в одном инфополе, и я уже развернул довольно большую часть.И тут коллеги начали задавать вопросы «Почему мы не разворачиваем каждый компонент последовательно, настраивая все досконально?». Для меня это звучало как: «Ты сделал неправильно, сейчас будем разбирать твою работу и от половины откажемся». 

продолжить чтение

Как мы валидировали сервер YADRO для NVIDIA H100 Special

Недавно на рынке появились PCIe-карты NVIDIA H100: они позиционируются как решения на базе SXM-чипов, извлеченных из HGX-модулей. Но точно ли их производительность не уступает производительности оригинальных NVIDIA H100 NVL? Меня зовут Артём Маклаев, вместе с командой я занимаюсь оценкой производительности серверных платформ для задач искусственного интеллекта в YADRO. В целях эксперимента мы решили сравнить показатели PCIe-карты NVIDIA H100 (дальше по тексту буду называть их NVIDIA H100 Special

продолжить чтение

Сергей Есман: «М.Видео планирует инвестировать около 9 млрд рублей в развитие ИТ-инфраструктуры»

продолжить чтение

Домик для ИИ: как завод пришёл к идее AI ready для бизнеса

Бизнес нацелился делать свой собственный AI. Все задают вопрос: «Какая модель мне нужна?» Но никто не задумывается, на каких мощностях модель будет работать. Мы тоже сначала не задумывались. Разработали корпоративного AI-агента, прокачали ИТ-команду, чтобы двигаться дальше — и споткнулись о «железный порог». Так родилась идея AI ready модуля. В статье рассказали, что это такое и почему AI начинается не с модели, а с инфраструктуры. 

продолжить чтение

Архитекторы в ИТ — кто все эти люди на созвонах и почему без них современный бизнес начинает страдать

Когда компания маленькая, архитекторов обычно нет. Есть разработчик Алеша, системный администратор Димон и руководитель Саша, который говорит сакральную фразу:"Да что там делать, поднимите сервер, выкатите приложение. Делов-то!".Потом компания растет. Появляются Kubernetes, микросервисы, Clickhouse, десять команд разработки, пять облаков, семь подрядчиков, бюджеты на миллионы рублей и внезапное осознание:"Кажется, нам нужен человек, который понимает, как это вообще должно работать вместе".Так в компании появляются архитекторы.

продолжить чтение

Сколько на самом деле стоит GenAI в продакшене

Когда обсуждают стоимость внедрения генеративного ИИ, разговор часто сводится к цене за токен или цене за арендуемый GPU. Это удобно — одно число. Но в реальном продакшене такая оценка почти всегда обманчива.Стоимость GenAI-системы — это не только сколько стоит вызвать модель. Это инфраструктура, эксплуатация, безопасность, наблюдаемость, разработка, интеграции, поддержка пользователей и постоянные изменения вокруг моделей. Именно поэтому «мы поднимем open-source модель сами, будет дешевле» часто оказывается правдой только на первом слайде презентации.Из чего складывается стоимость GenAI в продакшене

продолжить чтение

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”

продолжить чтение

Распределенное KV-хранилище на базе etcd

Недавно передо мной встал вопрос выбора системы хранения инфраструктурных данных для небольшого проекта. Объем — несколько тысяч записей, основные требования — система должна быть распределенной, отказоустойчивой и достаточно простой в обслуживании. Я выбирал из всего спектра NoSQL баз данных и KV-хранилищ и остановил свой выбор на распределенном KV-кластере на базе etcd.

продолжить чтение

Anthropic может начать разработку собственных AI-чипов

продолжить чтение