инференс моделей.

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».«Платим за A100, а реально используем лишь 30% ее мощности».Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

продолжить чтение

Оставлено в

Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей.

продолжить чтение

Оставлено в

Эффективный пакетный инференс моделей. Опыт инженеров VK

Привет, Хабр! На связи Артём Петров, я занимаюсь разработкой ПО в центре технологий VK. Хочу рассказать о важной задаче обработки больших объёмов данных с использованием нескольких экземпляров одной и той же модели машинного обучения. Этот процесс называется batch inference («пакетный инференс») и позволяет значительно повысить производительность системы, особенно когда речь идёт о таблицах большого размера.Open Inference Protocol (OIP)

продолжить чтение

Оставлено в
- Go
- инференс моделей

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

инференс моделей.

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели

Эффективный пакетный инференс моделей. Опыт инженеров VK

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

инференс моделей.

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели

Эффективный пакетный инференс моделей. Опыт инженеров VK