llama.cpp. - страница 2

Как я разогнал Qwen3.6-27B до 73 токен-с в llama.cpp: параметры, которые реально работают

Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go.На данный момент самая интересная модель для моего стека — Qwen3.6-27B. Но один только выбор хорошей модели ничего не гарантирует. Без правильных параметров вы не получите ни скорости, ни качества.В этой статье я расскажу, с какими конкретно параметрами запускаю Qwen3.6-27B в llama.cpp

продолжить чтение

Тестируем выделенный L40S и vGPU на 16 ГБ по производительности (llama.cpp, ComfyUI)

продолжить чтение

PewDiePie выложил в open source Odysseus — персональный AI-хаб для локальной работы

Блогер PewDiePie выпустил Odysseus — self-hosted AI workspace, который он позиционирует как локальную альтернативу интерфейсам ChatGPT и Claude.

продолжить чтение

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t-s до 130 t-s без потерь. Что такое MTP

продолжить чтение

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта

продолжить чтение

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Gemma 4 обыграла Qwen Coder в задачах программирования, а режим мышления заставил модели хуже следовать инструкциям. Рассказываю почему.Зачем я это затеялПривет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML.

продолжить чтение

Гефестыч: наш опыт автоматизации Code Review через LLM. «Грабли», решения, код

ВведениеКто мы?Привет, Хабр! Меня зовут Данил Чечков, я Team Lead команды High End Meta Backend в «Леста Игры». Мы занимаемся всей web-составляющей «Мира кораблей». В нашем арсенале огромное количество микросервисов, работающих на Python и Go. Мы отвечаем за покупки в meta-валюте, авторизацию, стабильность инвентаря и профиля игрока, клановые сервисы, а также многое-многое другое.Наш основной продукт – высококачественные web-сервисы на стыке интеграции с игрой. И, да, интеграция – часть нашей работы.

продолжить чтение

Open WebUI (с веб-поиском) + llama.cpp

Когда я решил использовать веб-поиск в OpenWebUI результат оказался бесполезным. Гайд по настройке, чтобы получать хоть сколько-то приемлемый результат найти не удалось ни на русском, ни на английском. Поэтому решил собрать всё что удалось найти в этой статье.Очевидно, что это не сравнится с проприетарными и платными сервисами. Но могут быть разные причины для использования локальных моделей: запрет или нежелание передавать данные третьим лицам, невозможность оплатить сервисы, желание использовать Unrestricted/Derestricted/Oblitirated модели.Настройка для видеокарты NVIDIA 3090 24Gb и 32Gb RAM на Windows 10 (22H2).Установка и запуск llama.cpp

продолжить чтение

Как в СНГ выбирают людей для AI-внедрения — и почему это страшно. Кейс из жизни

Коротко о себе — чтобы был контекст.Я Python-разработчик с несколькими годами в коммерческой разработке. Последние полтора года плотно занимаюсь AI-интеграциями: строю агентов на LangGraph, разворачиваю локальные LLM через vLLM и llama.cpp, делаю RAG-системы с pgvector и Quadrant, пишу MCP-серверы, настраиваю ASR/TTS пайплайны на нескольких языках включая узбекский.За плечами — реальные внедрения для бизнеса и госструктур, работающая инфраструктура на двух GPU-серверах, агенты которые крутятся в продакшне прямо сейчас. Пишу на Хабре, веду Telegram-канал про Python и AI на 6000+ подписчиков.В общем, не теория.

продолжить чтение

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

продолжить чтение