Локальные LLM на слабом железе — что ставить, как запустить, чего ждать. llm.. llm. llm-модели.. llm. llm-модели. Блог компании Paybeam.. llm. llm-модели. Блог компании Paybeam. искусственный интеллект.. llm. llm-модели. Блог компании Paybeam. искусственный интеллект. нейросеть.

Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация – сжатие весов с 32-битной точности до 4-битной. Модель стала в 3-4 раза легче при минимальной потере качества. 7B параметров теперь занимают 4-5 ГБ вместо 14.

Параллельно с этим появилась Ollama – инструмент, который убирает всё лишнее между пользователем и моделью. Устанавливается одной командой, сама находит GPU если она есть (NVIDIA, AMD, Apple Metal), при отсутствии – работает на CPU. Модели качаются как докер-образы, запускаются одной строкой. Да, и никакой ручной настройки окружений.

Установка Ollama и моделей

# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows / macOS - установщик на ollama.com/download

После установки – запускаем нужную модель (пример для представленных ниже тестов). При первом запуске она скачается автоматически:

ollama run smollm2:1.7b 	# Тир 1 - 1.8 ГБ
ollama run phi4-mini 	   # Тир 2 - 2.5 ГБ
ollama run qwen3:8b     	# Тир 3 - 5.2 ГБ

Если хочется скачать заранее без запуска:

ollama pull phi4-mini
ollama list             	# посмотреть что установлено

Три тира под три уровня железа

Мы отобрали модели по двум условным критериям – хоть какая-то работоспособность и польза при ограниченном железе. Никаких экзотических форков – только то, что стабильно работает через Ollama. И то, что вы сможете затестить прямо сейчас.

Тир 1 – 2-4 ГБ RAM, GPU не нужна

Офисный ПК или очень древний ноут. Скорость – 15-20 токенов в секунду. Рассуждать на несколько шагов не умеют, но с однозначными задачами справляются.

Модель	Диск	Контекст	RU	Что умеет
smollm2:1.7b	1.8 ГБ	8K	–	Перефразировать текст, классифицировать, ответить на прямой вопрос
qwen3:1.7b	1.4 ГБ	40K	+	Суммаризация на RU, простые рассуждения, большой контекст
qwen3:0.6b	523 МБ	40K	+	Короткий ответ, быстрая классификация, совсем слабое железо
tinyllama	638 МБ	2K	–	Автодополнение, короткий чат, edge-устройства
qwen2.5-coder:1.5b	986 МБ	32K	~	Написать функцию, исправить синтаксис, объяснить код
moondream	1.7 ГБ	2K	–	Описать изображение, найти объект на фото, ответить по картинке
dolphin-phi	1.6 ГБ	2K	~	Ответить без отказов на чувствительные темы, ролевые игры, тест безопасности
reader-lm:1.5b	~1 ГБ	32K	+	HTML страница → Markdown, очистка разметки, парсинг

Тир 2 – 6-8 ГБ RAM

Средний ноутбук. Скорость – 8-12 токенов/с. Стараются держать чуть более длинный контекст, решают многошаговые задачи, часть умеет думать вслух.

Модель	Диск	Контекст	RU	Что умеет
phi4-mini	2.5 ГБ	128K	+	Решить задачу пошагово, написать и объяснить код, работать с длинным документом
phi3.5	2.2 ГБ	128K	+	Написать письмо / резюме, ответить по документу, SQL из описания
llama3.2	2.0 ГБ	128K	~	Следовать многошаговым инструкциям, переписать текст, tool use
gemma3:4b-it-qat	1.5 ГБ	128K	+	Описать изображение на RU, ответить по скриншоту, суммаризация
qwen3:4b	2.5 ГБ	256K	+	Анализ длинного документа, рассуждение с /think, перевод и редактура
deepseek-r1:1.5b	~1 ГБ	128K	+	Логические задачи с цепочкой рассуждений, математика, проверка ошибок
orca-mini:3b	~2 ГБ	4K	–	Вопрос-ответ, суммаризация, простое объяснение понятий

Тир 3 – 8-16 ГБ RAM

Скорость – 4-8 токенов/с на CPU. Ощутимо умнее – структурируют, держат нить, замечают противоречия.

Модель	Диск	Контекст	RU	Что умеет
qwen3:8b	5.2 ГБ	40K	+	Написать статью / план / обзор, сложный код, дебаг с объяснением
qwen2.5-coder:7b	4.7 ГБ	32K	+	Целый модуль с нуля, рефакторинг, юнит-тесты, код-ревью
mistral-small (22B)	13 ГБ	32K	+	Анализ, юридический текст, мультиступенчатые инструкции
gemma3:12b-it-qat	~7 ГБ	128K	+	Анализ изображений, длинный документ + вопросы по нему

RU: + хорошая поддержка, ~ базовая, – только EN

И небольшой краш-тест. В качестве эксперимента

Скажем так, таблицы с характеристиками читаются хорошо, но не показывают главного – как модель ведёт себя на практике. Мы взяли три задачи разного уровня сложности и прогнали каждую через все три тира. Технически – условия для всех одинаковые. Ollama v0.20.4, Windows, чистый CPU без видеокарты. Задач – максимально простые. Объяснить техническое понятие, решить арифметику по шагам, написать базовую Python-функцию.

Задачи были выбраны нами не случайно. Объяснение понятия – это проверка связности речи и русского языка. Математика – следование алгоритму, способность не потерять шаги. Код – структурированный вывод с соблюдением синтаксиса и примерами.

Итак, начем.

Задача 1 – математика: яблоки, треть, два друга

smollm2 (English only):

Pete has 12 apples. He ate a third of them, then split the rest equally between 2 friends. How many apples did each friend get? Show your work.

phi4-mini:

У Пети 12 яблок. Он съел треть, а остаток разделил поровну между двумя друзьями. Сколько яблок получил каждый друг? Покажи решение по шагам.

smollm2 считала шаг первый верно: треть от 12 - это 4, осталось 8. Но затем разделила 8 на 3 человек вместо 2 - включила в раздел самого Петю: «Pete and his two friends, making a total of 3 people». Получила 2.67, округлила до 2." — smollm2 считала шаг первый верно: треть от 12 – это 4, осталось 8. Но затем разделила 8 на 3 человек вместо 2 – включила в раздел самого Петю: «Pete and his two friends, making a total of 3 people». Получила 2.67, округлила до 2.”

phi4-mini: три подписанных шага ("Шаг 1", "Шаг 2", "Шаг 3"), каждый с формулой. Финал: "Итак, каждый друг получил по 4 яблока." Верно. — phi4-mini: три подписанных шага (“Шаг 1”, “Шаг 2”, “Шаг 3”), каждый с формулой. Финал: “Итак, каждый друг получил по 4 яблока.” Верно.

Задача 2 – объяснить что такое RAM в двух предложениях

qwen3:8b (с режимом размышлений):

Объясни в двух предложениях что такое оперативная память (RAM) и зачем она нужна.

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать - 3

Задача 3 – Python-функция проверки палиндрома

smollm2 (English only):

Write a Python function that checks if a string is a palindrome. Add a docstring and 2 examples.

phi4-mini, qwen3:8b:

Напиши Python функцию которая проверяет является ли строка палиндромом. Добавь docstring и два примера использования.

smollm2 выдала рабочую функцию логически, Но PowerShell перемешал порядок вывода - docstring появился раньше подписи функции. — smollm2 выдала рабочую функцию логически, Но PowerShell перемешал порядок вывода – docstring появился раньше подписи функции.

phi4-mini: чистая функция с подробным docstring на русском (отдельные блоки Вход/Выход), двухуказательный алгоритм. Два примера в конце. Умничка.

qwen3:8b - начала думуть — qwen3:8b – начала думуть

И ответила корректно, к каждому шагу добавила контекст - объяснила логику, а не только формулу. — И ответила корректно, к каждому шагу добавила контекст – объяснила логику, а не только формулу.

Да, конечно, для формирования полноценного понимания – неплохо было бы провести гораздо больше тестов. Но давайте будем реалистами. 4-5 токенов в секунду – это реальная скорость qwen3:8b на CPU. Средний ответ – минута-две ожидания. smollm2 быстрее, но даже на тривиальной математике ошиблась. Собственно, это не облако – здесь ждать придётся. И ждать, скорее всего, чего-то специфического и узконаправленного.

Но под нишевое использование и в качестве материала для ознакомительных тестов – эти модели определенно найдут своего пользователя.

Автор: Neyroskuf

Источник

Запись добавлена: 25.04.2026 в 06:11
Оставлено в

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Установка Ollama и моделей

Три тира под три уровня железа

Тир 1 – 2-4 ГБ RAM, GPU не нужна

Тир 2 – 6-8 ГБ RAM

Тир 3 – 8-16 ГБ RAM

И небольшой краш-тест. В качестве эксперимента

Задача 1 – математика: яблоки, треть, два друга

Задача 3 – Python-функция проверки палиндрома

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Установка Ollama и моделей

Три тира под три уровня железа

Тир 1 – 2-4 ГБ RAM, GPU не нужна

Тир 2 – 6-8 ГБ RAM

Тир 3 – 8-16 ГБ RAM

И небольшой краш-тест. В качестве эксперимента

Задача 1 – математика: яблоки, треть, два друга

Задача 3 – Python-функция проверки палиндрома