инференс моделей.

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Сегодня зашел на сайт ollama, а там представили новую LLM модель qwen3-coder-next. Но при попытке ее установить вышло предупреждение что моя текущая версия 0.15.4 не будет работать с ней, нужно установить 0.15.5 которая еще только в бета тестировании. А стандартная установка ставила только 0.15.4, сначала я плюнул на это. Но немного разобравшись, оказалось что установить бета версию не так и сложно, стандартная установка для линукс выглядит так curl -fsSL https://ollama.com/install.sh | sh а установка бета варсии (сейчас она 0.15.5-rs2) выглядит так

продолжить чтение

Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

Развертывание нейросетевых моделей в production-среде — критически важный этап ML-пайплайна. Когда речь заходит о встраивании в C++ приложения (будь то высоконагруженные сервисы, desktop-софт или встраиваемые системы), выбор инструментария сужается. Прямое использование фреймворков вроде PyTorch или TensorFlow часто избыточно и приводит к зависимостям, сложностям сборки и излишнему потреблению памяти.ONNX Runtime (ORT)

продолжить чтение

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».«Платим за A100, а реально используем лишь 30% ее мощности».Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

продолжить чтение

Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей.

продолжить чтение

Эффективный пакетный инференс моделей. Опыт инженеров VK

Привет, Хабр!  На связи Артём Петров, я занимаюсь разработкой ПО в центре технологий VK. Хочу рассказать о важной задаче обработки больших объёмов данных с использованием нескольких экземпляров одной и той же модели машинного обучения. Этот процесс называется batch inference («пакетный инференс») и позволяет значительно повысить производительность системы, особенно когда речь идёт о таблицах большого размера.Open Inference Protocol (OIP)

продолжить чтение

Rambler's Top100