Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference
TL;DRМы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:hipMemGetInfo(free, total) CUDA error: invalid argumentПосле серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:kernel → ROCm runtime → ggml backendФинальное решение включало:переход на kernel 6.8стабилизацию ROCm runtimeиспользование llama.cpp + ROCmgrammar‑constrained decoding для strict sanity promptsВ итоге мы получили стабильный GPU inference:~42 токен/секgpu_busy_percent → до 100%
Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp
Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.Google выпустил Gemini 3.1 Pro. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое.В реальной работе не всё гладко. Бывший сотрудник Google на
Запускаем AI-ассистента на бесплатном CPU: Qwen2.5 + Gradio + Hugging Face Spaces
Каждый раз, когда кто-то говорит про запуск LLM, возникает вопрос: "А где взять GPU?" Облачные GPU стоят денег, локальные видеокарты стоят ещё больших денег, а бесплатные GPU-тиры исчезают быстрее, чем появляются.Но что если можно запустить полноценного AI-ассистента вообще без GPU? На обычном CPU. Бесплатно. С хорошей поддержкой русского языка. И развернуть его за 15-20 минут.Эта статья адресована начинающим специалистам в области машинного обучения и data science. Если вы только знакомитесь с экосистемой ML-инструментов, здесь вы найдёте подробное введение в два замечательных инструмента: Gradio
Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT
Однажды захотел я установить Ubuntu 24.04 для локального запуска LLM-моделей. Поскольку моя система полностью на базе AMD (процессор Ryzen 7600 и видеокарта Radeon RX 9060 XT), логичным выбором стал стек ROCmОднако быстрого и понятного руководства «от и до» для свежего Ubuntu 24.04 я не нашёл — даже нейросети давали устаревшие или фрагментированные советы.В этой статье я подробно разберу весь путь: от установки драйверов ROCm до получения первого ответа от модели через Python-скрипт. Надеюсь, этот гайд сэкономит время тем, кто столкнётся с аналогичной задачей.1. Установка системы и драйверов ROCm
Запускаем LLM на iPhone локально — мой опыт с Gemma 2B
ВведениеДолгое время меня мучал вопрос - возможно ли запустить ИИшку у себя на телефоне, и если да, то какую. Я уверен, что об этом думали многие, но не понимали смысла, зачем тратить время на такого рода занятия. Чтож, я не выдержал и сделал мини-приложение, которое запускает Qwen / Gemma модель и общается с вами без доступа в интернет. Задачи минимум: 1. Развернуть модель ИИ у себя на iPhone2. Навайбкодить приложение, где можно общаться ИИ без доступа в интернет 3. Замерить потребление ресурсов моего iPhone во время работы с приложениемЧто получилось в итогеiPhoneLLM
В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера
Разработчики llama.cpp добавили поддержку router mode — режима, с помощью которого можно динамически загружать, выгружать и переключать несколько моделей без перезагрузки сервера. В блоге Hugging Face отмечают, что чаще всего пользователи просили реализовать именно эту функцию.
GGUF: квантизация с калибровкой (imatrix)
Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp
Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang
ВведениеВсем привет! Меня зовут Максимов Максим, я — NLP‑инженер в компании red_mad_robot. Сегодня я хотел бы представить вам практическое руководство по запуску и использованию популярных инструментов для работы с LLM. Целью этой работы было познакомиться и опробовать следующие инструменты: OllamaLM StudiovLLMTriton llama.cppSGLang
Нейросети простым языком
Привет!В интернете можно найти разные объяснения того, как работают нейросети, но те, что мне попадались, были либо слишком специфичны и ориентированы на специалистов, либо слишком упрощены.Постарался написать свои объяснения, которые были бы не было слишком упрощены, но при этом по возможности понятны.Статья на 10 процентов скомпилирована из других статей, на 30 процентов скомпилирована из множества диалогов с разными LLM и на 60 процентов “написана от руки” на основании статей и ответов.Оглавление

