llama.cpp.

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

АннотацияАвтоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle

продолжить чтение

Ubuntu 26.04 на клоне DGX Spark (Asus GX10)

DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольно старые, версии 580, cuda toolkit тоже чуток устарел, 12-ой версии. Кроме того, стоит куча невразумительных пакетов с телеметрией (типа, для работы с Nvidia Sync), обвешано все какими-то левыми скриптами и странными настройками.

продолжить чтение

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

«У нас было две планки оперативной памяти, одна серверная Tesla V100, прочная открытая рама вместо корпуса, 5 райзеров, коробка, наполовину набитая переходниками питания, и целое море разноцветных SATA‑кабелей, стяжек и термопрокладок, а так же тюбик термопасты, моток шлангов для водянки, ящик вентиляторов, пинта изопропила и 12 саморезов неизвестного происхождения. Не то, чтобы всё это было категорически необходимо для сборки, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно.»— по мотивам Хантера С. Томпсона, «Страх и Ненависть в Лас‑Вегасе»

продолжить чтение

LLM на iPhone: от llama.cpp до Foundation Models

2026: год, когда on-device стал нормойВ 2025 году вместе с iOS 26 компания Apple представила разработчикам Apple Foundation Models. Теперь порог входа для on-device AI упал до нескольких строк, и далее в статье мы рассмотрим как он выглядит. 

продолжить чтение

Создаем автономный анализатор логов на локальных ИИ-моделях

продолжить чтение

Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку

продолжить чтение

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

ВведениеВсем привет! Продолжаю тему предыдущей статьи. В ней сравнивалось железо для локального инференса — Nvidia DGX Spark, Mac Studio M3 Ultra и Strix Halo. И как можно было догадаться, остановился я именно на последнем.Железо есть, зарядим теперь на нем пару-тройку локальных моделей под управлением проверенного AI-агента.Claude Сode по подписке с оригинальными LLM - это, конечно, замечательно. Но это стоит денег, да и свой код в чужие дата-центры не всегда правильно отправлять. Плюс за всякое неосторожное движение можно попасть в бан, рискуя потерять все свои наработки.Одно из решений: 

продолжить чтение

Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

В первой части локальная Gemma 4 на мыльной таблице сочинила целую строку зарплат, а на гигантской — насыпала гладких круглых тысяч вместо реальных чисел. В комментариях читатель сказал: для OCR таблиц бери специальную модель, GLM‑OCR, она и меньше, и точнее. Я взял. На той же строке, которую Gemma выдумала, GLM прочитала всё верно.Откуда это вообще взялосьСтатью я писал не про «Gemma — лучший OCR» (она им не является), а про карту: где у общего локального VLM ломается зрение и как это ловить. И в комментарии badsynt

продолжить чтение

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально. На четвёртом модель начала врать. И врать аккуратнее, чем говорила правду.ВводнаяВышла Gemma 4 12B Unified — мультимодальная модель, которая читает не только текст, но и картинки. В квантованном виде она помещается на обычный ноутбук, и мне стало любопытно, что это даёт на практике, а не в бенчмарках.

продолжить чтение

Как я разогнал Qwen3.6-27B до 73 токен-с в llama.cpp: параметры, которые реально работают

Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go.На данный момент самая интересная модель для моего стека — Qwen3.6-27B. Но один только выбор хорошей модели ничего не гарантирует. Без правильных параметров вы не получите ни скорости, ни качества.В этой статье я расскажу, с какими конкретно параметрами запускаю Qwen3.6-27B в llama.cpp

продолжить чтение