локальные модели.

Microsoft анонсировала настольную рабочую станцию ​​для разработчиков ИИ

На конференции Build 2026 Microsoft представила Surface RTX Spark Dev Box. Это новая настольная рабочая станция, работающая на базе Nvidia RTX Spark.

продолжить чтение

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что‑то делать: все вокруг внедряют, конкуренты вон что‑то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть.Это был, кажется, пятый такой звонок за месяц.

продолжить чтение

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта

продолжить чтение

Google объяснила увеличение объёма занятой памяти на Android после обновлений системы

Google объяснила, почему объём памяти Android AICore иногда резко возрастает. Система позволяет запускать функции генеративного ИИ непосредственно на аппаратном обеспечении Android-смартфона или планшета. 

продолжить чтение

Токенная разработка: почему я плачу $200 в месяц, а не $800 за устаревшее железо

Хуанг на GTC 2026 предложил платить инженерам токен-бюджеты вместо части зарплаты. Forbes написал: “output isn’t software, it’s tokens”. Anthropic посчитала: Claude Code обходится в $13 на разработчика в день, $150-250 в месяц.Я 4 месяца не обсуждаю, а считаю. И первое что посчитал: б/у RTX 3090 стоит $800-1000. За эти деньги я оплачиваю API и веду проекты: embedded firmware, криптография, backend, своя IDE. Карта за $800 дала бы одну модель среднего уровня и шум вентиляторов.Нет, я не нашёл волшебную модель. Я научился считать. И начал с того, во что верит большинство.

продолжить чтение

Как дообучать локальные LLM в 2026 году: практическое руководство

В 2026 году возможность дообучения локальных LLM стала реальной опцией для отдельных разработчиков и небольших команд. Это стало возможным благодаря снижению требований к видеопамяти (VRAM), развитию инструментов и расширению набора базовых моделей с открытыми лицензиями.

продолжить чтение

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.Железо и ожиданияМоя конфигурация:GPU: RTX 4070 12GB VRAMRAM: 32GB DDR4CPU: 12 физических ядерOS: Windows 11 + WSL2 (Ubuntu)

продолжить чтение

Топ локальных нейросетей 2026: полный суверенитет без интернета

Я долгое время была в отношениях с облачными нейросетями. Это было удобно, даже комфортно. Открыла браузер, написала промпт и через пару секунд получила ответ. Но в последнее время отношения начали давать трещину.

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 3: добавляем историю сообщений и контекст

Во второй части у нас получился уже не одноразовый скрипт, а маленький консольный чат: программа принимает вопрос, отправляет его модели, печатает ответ и ждёт следующего ввода.Но пока у этого чата есть важное ограничение: каждый новый запрос для модели почти независим.Если сначала спросить:Составь простой план изучения Python на 2 недели.а потом написать:Сделай его короче и оставь только самое важное.модель может ответить нормально. А может и не понять, к чему относится слово «его». Потому что для неё второй запрос — это просто новый отдельный вызов.

продолжить чтение

Как установить DeepSeek на сервере: практическое руководство

продолжить чтение

12