llama.cpp.

Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT

Однажды захотел я установить Ubuntu 24.04 для локального запуска LLM-моделей. Поскольку моя система полностью на базе AMD (процессор Ryzen 7600 и видеокарта Radeon RX 9060 XT), логичным выбором стал стек ROCmОднако быстрого и понятного руководства «от и до» для свежего Ubuntu 24.04 я не нашёл — даже нейросети давали устаревшие или фрагментированные советы.В этой статье я подробно разберу весь путь: от установки драйверов ROCm до получения первого ответа от модели через Python-скрипт. Надеюсь, этот гайд сэкономит время тем, кто столкнётся с аналогичной задачей.1. Установка системы и драйверов ROCm

продолжить чтение

Оставлено в

Запускаем LLM на iPhone локально — мой опыт с Gemma 2B

ВведениеДолгое время меня мучал вопрос - возможно ли запустить ИИшку у себя на телефоне, и если да, то какую. Я уверен, что об этом думали многие, но не понимали смысла, зачем тратить время на такого рода занятия. Чтож, я не выдержал и сделал мини-приложение, которое запускает Qwen / Gemma модель и общается с вами без доступа в интернет. Задачи минимум: 1. Развернуть модель ИИ у себя на iPhone2. Навайбкодить приложение, где можно общаться ИИ без доступа в интернет 3. Замерить потребление ресурсов моего iPhone во время работы с приложениемЧто получилось в итогеiPhoneLLM

продолжить чтение

Оставлено в

В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера

Разработчики llama.cpp добавили поддержку router mode — режима, с помощью которого можно динамически загружать, выгружать и переключать несколько моделей без перезагрузки сервера. В блоге Hugging Face отмечают, что чаще всего пользователи просили реализовать именно эту функцию.

продолжить чтение

Оставлено в

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

продолжить чтение

Оставлено в

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp

продолжить чтение

Оставлено в

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

ВведениеВсем привет! Меня зовут Максимов Максим, я — NLP‑инженер в компании red_mad_robot. Сегодня я хотел бы представить вам практическое руководство по запуску и использованию популярных инструментов для работы с LLM. Целью этой работы было познакомиться и опробовать следующие инструменты: OllamaLM StudiovLLMTriton llama.cppSGLang

продолжить чтение

Оставлено в

Нейросети простым языком

Привет!В интернете можно найти разные объяснения того, как работают нейросети, но те, что мне попадались, были либо слишком специфичны и ориентированы на специалистов, либо слишком упрощены.Постарался написать свои объяснения, которые были бы не было слишком упрощены, но при этом по возможности понятны.Статья на 10 процентов скомпилирована из других статей, на 30 процентов скомпилирована из множества диалогов с разными LLM и на 60 процентов “написана от руки” на основании статей и ответов.Оглавление

продолжить чтение

Оставлено в

Георгий Герганов, автор llama.cpp и звукового кейлогера

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama

продолжить чтение

Оставлено в

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты.

продолжить чтение

Оставлено в

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

ВведениеПосле сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llama.cpp.

Установка и настройка llama.cpp с ROCm на Ubuntu 24.04 для AMD Radeon RX 7600 XT

Запускаем LLM на iPhone локально — мой опыт с Gemma 2B

В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

GGUF: квантизация с калибровкой (imatrix)

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

Нейросети простым языком

Георгий Герганов, автор llama.cpp и звукового кейлогера

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llama.cpp.