Ryzen AI 9 HX 370 – это чип с NPU на 50 TOPS и Ollama его не видит – из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает – через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 – у всех этих чипов есть нейронный процессор, который при запуске Ollama простаивает.
И вот Lemonade Server появился именно для этого сегмента.
Что за Lemonade
Для начала – это не корпоративный продукт AMD. Они финансируют разработку и предоставляют инженеров, но это не официальный продукт с корпоративным релизным циклом.
Lemonade – это управляющий слой поверх нескольких специализированных движков. Каждый движок обслуживает свою задачу.
Для текстовых моделей – llama.cpp с поддержкой Vulkan и отдельная ROCm-сборка llama.cpp для AMD GPU. Для NPU – FastFlowLM (FLM) на чипах с архитектурой XDNA – это Ryzen AI 300 (Strix Point), Ryzen 8040 (Hawk Point) и Ryzen 7040 (Phoenix). Для распознавания речи – whisper.cpp. Для синтеза речи – Kokoro. Для генерации изображений – sd-cpp.
Всё это управляется фоновым процессом lemond на порту 13305.
При старте Lemonade определяет доступное железо и выбирает движок. На APU с Ryzen AI – FastFlowLM. На GPU с ROCm – специальная llamacpp-rocm сборка. На NVIDIA или без GPU – Vulkan или CPU-режим. Ручная настройка не требуется.
Ollama использует один бэкенд – llama.cpp. TTS, STT и генерация изображений в нём не реализованы. Это разные инструменты, не встроенные в сервер.
Пять API-стандартов одновременно
Lemonade поднимает пять API-протоколов. Три основных – OpenAI, Ollama и Anthropic. Плюс llama.cpp-специализированные эндпоинты и собственный Lemonade API для управления сервером.
Клиент, написанный под OpenAI API, подключается к Lemonade заменой одной строки:
base_url = "http://localhost:13305/api/v1"
api_key = "lemonade" # параметр обязателен, но не проверяется
Из официально задокументированных интеграций – Continue, Open WebUI, AnythingLLM, Claude Code, CodeGPT, OpenHands, Mindcraft.
Порт у Lemonade – 13305, а не 11434 от Ollama. Клиенты, захардкоженные на 11434, потребуют перенастройки.
Lemonade vs Ollama
|
Параметр |
Lemonade Server |
Ollama |
|---|---|---|
|
Лицензия |
Apache 2.0 |
MIT |
|
Движок (текст) |
llama.cpp + FLM |
llama.cpp |
|
GPU NVIDIA |
Vulkan |
CUDA |
|
GPU AMD |
ROCm (отдельная сборка) |
ROCm (не все GPU) |
|
AMD NPU (XDNA) |
FLM нативно |
не поддерживается |
|
TTS |
Kokoro встроено |
нет |
|
STT |
whisper.cpp встроено |
нет |
|
Генерация изображений |
sd-cpp встроено |
нет |
|
API OpenAI |
да |
да |
|
API Ollama |
да |
да |
|
API Anthropic |
да |
да |
|
GUI |
Десктопное приложение + браузерный UI (Windows, macOS beta) |
Системный трей (macOS, Windows) |
|
Встраиваемый режим |
portable build lemond |
нет |
NPU-движок FLM бесплатен только для некоммерческого использования. Сам Lemonade Server – Apache 2.0 без ограничений. Коммерческое применение FLM требует отдельной лицензии.
Быстрый старт
На Windows – MSI-инсталлятор.

После установки запускается Lemonade App – десктопное приложение с менеджером моделей и встроенным LLM-чатом.

Через CLI – скачать и запустить модель:
lemonade pull Llama-3.2-1B-Instruct-Hybrid
lemonade run Llama-3.2-1B-Instruct-Hybrid # загружает модель и открывает вебаппу в браузере

Проверяем, поднялся ли сервер:
lemonade status

Для Linux – пакеты тут (snap, RPM, Debian, Docker).
Llama-3.2-1B-Instruct-GGUF – одна из наименее требовательных моделей в каталоге. Запускается в CPU-режиме без GPU. Модели с суффиксом Hybrid – только для XDNA NPU, на обычных машинах в каталоге не появляются.
Нужен ли вам Lemonade
NVIDIA + Ollama работает – переходить незачем. Ollama использует CUDA нативно. Lemonade на NVIDIA работает через Vulkan, что медленнее.
AMD-десктоп или ноутбук с Ryzen AI – Lemonade под это, собственно, и собран. ROCm-сборка llama.cpp, нативная поддержка XDNA NPU через FLM.
В версии 10.3 десктопное приложение перешло с Electron на Tauri – размер уменьшился в 10 раз. MLX-поддержка для Mac в разработке. macOS beta уже завершена. Полной поддержки NVIDIA через CUDA пока нет.
Lemonade имеет смысл, если нужен AMD NPU, встроенный голос или генерация изображений. Если ваш стек в них не попадает – остаёмся с Ollama.
Автор: Neyroskuf


