Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке
ВведениеВсем привет! Продолжаю тему предыдущей статьи. В ней сравнивалось железо для локального инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться, остановился я именно на последнем.Железо есть, зарядим теперь на нем пару-тройку локальных моделей под управлением проверенного AI-агента.Claude Сode по подписке с оригинальными LLM - это, конечно, замечательно. Но это стоит денег, да и свой код в чужие дата-центры не всегда правильно отправлять. Плюс за всякое неосторожное движение можно попасть в бан, рискуя потерять все свои наработки.Одно из решений:
Capacitor: от веба к мобильным приложениям. Часть 4. Интегрируем локальный LLM в проект
Привет, Хабр! Продолжаем серию статей о разработке мобильных приложений с помощью Capacitor. Если вы не читали предыдущие части, лучше начать с них:Часть 0. Зачем нужен CapacitorЧасть 1. Миграция проекта на CapacitorЧасть 2: Как написать свой плагинЧасть 3: OTA-обновленияВ этой части разберём, как запустить языковую модель прямо на телефоне — без сервера, без API-ключей и без постоянного интернета.Зачем локальный AI
DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан
NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно.Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f, а нативные NVFP4-инструкции есть только в compute_120a и compute_121a. На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер.
Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее
Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре.
LFM2.5-VL-450M: структурированный визуальный интеллект
Выпущена модель LFM2.5-VL-450M. Это обновленная версия LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные данные в реальном времени на локальных устройствах.
Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели
Хочу поделиться историей создания Telegram-бота, работающего полностью на локальной ИИ. В качестве языковой основы используется Ollama, а для генерации изображений — AUTOMATIC1111. Весь код написан на Python с библиотекой python-telegram-bot. Почему выбрал именно Ollama? Потому что она бесплатна, есть множество открытых моделей и её очень просто развернуть в своем проекте. Если брать облачные решения от других компаний, например ChatGPT, то тут можно уперется в то, что за них нужно платить. Модели я подбирал под свой компик: 5070 и 32 гб оперативы. Сервера своего нету, поэтому бот работает только когда я дома.
Запускаем LLM на iPhone локально — мой опыт с Gemma 2B
ВведениеДолгое время меня мучал вопрос - возможно ли запустить ИИшку у себя на телефоне, и если да, то какую. Я уверен, что об этом думали многие, но не понимали смысла, зачем тратить время на такого рода занятия. Чтож, я не выдержал и сделал мини-приложение, которое запускает Qwen / Gemma модель и общается с вами без доступа в интернет. Задачи минимум: 1. Развернуть модель ИИ у себя на iPhone2. Навайбкодить приложение, где можно общаться ИИ без доступа в интернет 3. Замерить потребление ресурсов моего iPhone во время работы с приложениемЧто получилось в итогеiPhoneLLM
Оцифровываем сырую документацию компании с помощью ИИ локально! DeepSeek-OCR + Qwen 1.5
Недавно получил задачу сделать автоматизированную оцифровку характеристик из паспортов товаров в БД, а не изменение параметров вручную в ERP. Я подумал, было бы здорово поделиться, как я это сделал, с вами на Хабре!Базовые задачи:Нужно, чтобы это все работало локальноСистема должна принимать разные форматы (.doc, .pdf, .png)Возможность создавать динамические таблицы, куда ИИ будет заполнять сама информацию, а не хардкодить для каждой категории паспорта свои отчетыЖелательно, чтобы все работало на одной видеокарте (в моем случае 3090 на 24GB VRAM)

