tensorrt.

Под капотом современных AI-систем: разбираем железо

Как объединить по сети вычислители? Что происходит при компиляции кода для железа под капотом и какие есть нюансы при работе с AI в пространстве ядра? ИИ с ноги ворвался во все сферы разработки, работы — вагон и маленькая тележка. Но на чём и как она должна ехать? У каждой программы есть свои требования, универсальных советов нет.

продолжить чтение

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM

продолжить чтение

Как просто добавить ИИ в приложения на Rust: универсальный опенсорсный инструмент

Системный разработчик ИТ-компании «Криптонит» написал статью про новый инструмент на Rust, который облегчает запуск моделей машинного обучения и их внедрение в приложения. Дальше публикуем текст от первого лица. Привет, Хабр! Меня зовут Михаил Михайлов. Я пишу на Rust и работаю системным разработчиком в компании «Криптонит». В этой статье хочу рассказать о новом инструменте на Rust, который облегчает запуск моделей машинного обучения и их внедрение в приложения.

продолжить чтение

Rambler's Top100