локальные модели.

Как дообучать локальные LLM в 2026 году: практическое руководство

В 2026 году возможность дообучения локальных LLM стала реальной опцией для отдельных разработчиков и небольших команд. Это стало возможным благодаря снижению требований к видеопамяти (VRAM), развитию инструментов и расширению набора базовых моделей с открытыми лицензиями.

продолжить чтение

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.Железо и ожиданияМоя конфигурация:GPU: RTX 4070 12GB VRAMRAM: 32GB DDR4CPU: 12 физических ядерOS: Windows 11 + WSL2 (Ubuntu)

продолжить чтение

Топ локальных нейросетей 2026: полный суверенитет без интернета

Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину.

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 3: добавляем историю сообщений и контекст

Во второй части у нас получился уже не одноразовый скрипт, а маленький консольный чат: программа принимает вопрос, отправляет его модели, печатает ответ и ждёт следующего ввода.Но пока у этого чата есть важное ограничение: каждый новый запрос для модели почти независим.Если сначала спросить:Составь простой план изучения Python на 2 недели.а потом написать:Сделай его короче и оставь только самое важное.модель может ответить нормально. А может и не понять, к чему относится слово «его». Потому что для неё второй запрос — это просто новый отдельный вызов.

продолжить чтение

Как установить DeepSeek на сервере: практическое руководство

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

В первой части мы сделали самый важный стартовый шаг: подняли локальную модель через Ollama, подключили её к Python через LiteLLM и получили первый осмысленный ответ из кода.Но пока это ещё не чат. Наш main.py умел только одно: отправить один заранее заданный вопрос, вывести ответ и завершиться.Для учебного эксперимента этого достаточно. Для приложения — уже нет.Во второй части превратим этот одноразовый скрипт в маленький консольный чат

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

Во многих туториалах по LLM всё начинается с API-ключей, платных токенов и облачных сервисов. Это рабочий путь, но для первого знакомства он не самый удобный: нужно регистрироваться, разбираться с биллингом и постоянно помнить, что каждый эксперимент что-то стоит.Здесь пойдём проще. В этой серии мы соберём маленький LLM-чат на Python, который сначала будет работать локально: модель запускается через Ollama, а Python-код общается с ней через LiteLLM.Это хороший стартовый маршрут по трём причинам:не нужны API-ключи;не нужен интернет для каждого запроса;

продолжить чтение

Beelink анонсировала мини-ПК Lobster Red OpenClaw для локального ИИ

Компания Beelink анонсировала новую серию мини-ПК с уже настроенным ИИ-агентом OpenClaw. Модель Lobster Red OpenClaw получила цельнометаллический корпус.

продолжить чтение

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Три месяца назад я наблюдал, как мой агент на Llama 3.1 8B в третий раз спрашивает, как меня зовут.Я представился в первом сообщении. Двести сообщений назад...Агент забыл. Не потому что тупой. Потому что контекст переполнился и начало разговора уехало в никуда.Это был момент, когда я понял: мы неправильно думаем о памяти.Почему большие контексты — это ловушкаКогда вышел Claude с контекстом на миллион токенов, казалось — проблема решена. Запихиваем всё в контекст, модель помнит всё. Красота.Потом пришёл счёт за API.

продолжить чтение

OpenCode + Docker Model Runner для локальной разработки с ИИ

Команда AI for Devs подготовила перевод статьи о том, как использовать OpenCode вместе с Docker Model Runner для локальной разработки с LLM. В центре внимания — контроль над кодом, данными и затратами: модели запускаются локально, контекст не уходит во внешние сервисы, а ИИ-ассистент становится частью вашей инфраструктуры, а не сторонним SaaS. Практический разбор для тех, кто хочет использовать ИИ в разработке без компромиссов по безопасности и стоимости.

продолжить чтение

12