qwen. - страница 3

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом.

продолжить чтение

Свой ИИ без облаков: практический гайд по llama.cpp + Qwen

продолжить чтение

Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

Последние новости в сфере ИИ натолкнули меня на одну обнадёживающую мысль: локальный запуск очень больших моделей уже не выглядит чем-то совсем фантастическим.Пока это ещё не новая реальность, но последние опубликованные технологи подводят именно к этому. Давайте разберёмся, какие именно новости к этому подводят и чего можно ожидать в ближайшем будущем.PrismML анонсировала и выложила в открытый доступ Bonsai 8B

продолжить чтение

Десктопный агент «Союз»: безопасный и бесплатный, теперь Open Source

Когда смотришь на рынок AI-агентов, создаётся впечатление, что все соревнуются в одном и том же: кто даст модели больше инструментов, больше доступа и больше свободы. Мы попробовали зайти с другой стороны. Что будет, если не наваливать возможностей без разбора, а думать в первую очередь о безопасности и предсказуемости? Так и появился «Союз». Сегодня мы с товарищем открываем исходники, а я расскажу, как мы к этому пришли и почему такой подход вообще сработал.Обзор и ссылки на исходники в конце статьи.Начало: написать агента может каждый

продолжить чтение

Alibaba выкатили Qwen3.6-Plus — новый флагман серии Qwen

Модель появилась на OpenRouter в ночь с 30 на 31 марта как бесплатный превью без анонса и пресс-релиза: один твит от исследователя Qwen с таблицей бенчмарков — и всё. За первые два дня через неё прошло 400 млн completion-токенов в ~400 тыс. запросах.Контекстное окно по умолчанию — 1 млн токенов. На Terminal-Bench 2.0 модель набрала 61.6 против 59.3 у Claude 4.5 Opus, на OmniDocBench v1.5 — 91.2 против 87.7. На SWE-bench Verified пока отстаёт: 78.8 против 80.9 у Claude. 

продолжить чтение

Ваша LLM галлюцинирует? Наденьте на неё экзоскелет — и заставьте работать по правилам

Тесты на Qwen и DeepSeek показали: одна системная инструкция превращает модель из «уверенного вруна» в инструмент, которому можно доверять.Всё началось с болиДелал проект на Unreal Engine 5 с помощью нейросети. Спрашиваю — отвечает уверенно, с примерами кода. Два часа искал функцию, которую она мне подсунула. Нашёл — в UE4. В пятёрке её убрали. После чего я начал осваивать промты.После первых итераций инструкции пришёл комментарий к первой статье:«…Я не программист. У меня стройка и бизнес-планирование. Из-за галлюцинации дипсика — потерял 2е суток времени...» — whitecat26

продолжить чтение

Вайбкодим .EXE под Windows с GUI на AutoHotkey v2

Продолжая изучать тему вайбкодинга для пет проектов на личном опыте и все еще находясь под впечатлением от предыдущей быстрой разработки, когда благодаря нейросетям без особых навыков программирования за пару вечеров удалось сделать консольную CMD утилиту для переконвертации семейного фото и видео архива за 15 лет, добившись сокращение его объема на жестком диске более чем в 3 раза!

продолжить чтение

Машинный перевод с локальным контекстом в Obsidian Copilot

Привет, Хабр.Мне по работе часто приходится заниматься переводом, и чтобы упростить себе жизнь, я решил настроить себе помощника, который был бы знаком с контекстом моей работы. Ниже делюсь результатами своих экспериментов.Переводчик в своей работе ориентируется не просто на какой-то язык, а на терминологию и стилистику определённого сообщества. Мой основной рабочий процесс выстроен в Obsidian (подробнее об этом я писал вместе с Игнатием Сатирским

продолжить чтение

Как заставить LLM считать точно: генерация кода вместо генерации ответов

Недавно в популярном Facebook-посте: «GPT работает всё хуже. Просишь пересчитать формулу на 600 грамм, он бодро выдаёт две по 300. Пора, видимо, валить».Проблема знакомая каждому, кто пытался использовать LLM для расчётов. Но это не деградация конкретной модели. Это фундаментальное ограничение архитектуры. И у него есть решение.Почему LLM не умеют считатьTransformer предсказывает следующий токен на основе вероятностного распределения. Когда вы просите модель умножить 18 на 38.76, она не вызывает калькулятор. Она генерирует последовательность символов, которая «похожа» на правильный ответ.

продолжить чтение

Хайп закончился: российский бизнес массово сворачивает GenAI-проекты

продолжить чтение

123456...10...16