triton.

Triton, Flash-attension, Sage-attension и bitsandbytes с ROCm 7 в Windows

В конце января 2026 вышел triton-windows 3.6.0.post25, который позволяет использовать flash-attention, sage-attention (v1) и другие библиотеки, использующие Triton, на картах AMD с поддержкой rocWMMA (то есть начиная с архитектуры gfx1100: RX 7900 XT/XTX и новее) в Windows.Также, несмотря на то что в официальном репозитории bitsandbytes еще не приняли PR для поддержки ROCm 7, его все же можно собрать, внеся небольшие изменения в код. Эти изменения я уже сделал в своем форке.

продолжить чтение

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

ВведениеВсем привет! Меня зовут Максимов Максим, я — NLP‑инженер в компании red_mad_robot. Сегодня я хотел бы представить вам практическое руководство по запуску и использованию популярных инструментов для работы с LLM. Целью этой работы было познакомиться и опробовать следующие инструменты: OllamaLM StudiovLLMTriton llama.cppSGLang

продолжить чтение

Как просто добавить ИИ в приложения на Rust: универсальный опенсорсный инструмент

Системный разработчик ИТ-компании «Криптонит» написал статью про новый инструмент на Rust, который облегчает запуск моделей машинного обучения и их внедрение в приложения. Дальше публикуем текст от первого лица. Привет, Хабр! Меня зовут Михаил Михайлов. Я пишу на Rust и работаю системным разработчиком в компании «Криптонит». В этой статье хочу рассказать о новом инструменте на Rust, который облегчает запуск моделей машинного обучения и их внедрение в приложения.

продолжить чтение

Пять элементов Inference-платформы Selectel. Как мы сделали своего Аватара

Когда дело доходит до инференса ML-моделей, на ум приходит стандартный вариант — задеплоить Helm chart с Triton в Kubernetes. А что если добавить магии, как в «Аватаре»? Привет! Я — Антон, DevOps-инженер в команде Data/ML-продуктов Selectel. В статье я продолжу рассказывать о нашем новом продукте — Inference-платформе (для которой все еще доступен бесплатный двухнедельный тест). На этот раз рассмотрим пять новых фичей, которые и отличают ее от стандартного варианта. Прошу под кат — там тест работающих моделей без даунтайма, генерация котят голосом и много другой магии.

продолжить чтение

Rambler's Top100