gguf.

Локальный запуск openai-gpt-oss-20b MXFP4 GGUF на ноутбуке без дискретной видеокарты: практический тест на 32 GB RAM

Запустил openai/gpt-oss-20b в варианте MXFP4 GGUF на обычном ноутбуке без дискретной видеокарты: CPU, встроенная Radeon 780M и общая оперативная память.Тест проводился на ASUS Vivobook S 16 M3607HA. Точную модель указываю не ради привязки статьи к конкретному ноутбуку, а для воспроизводимости, здесь важны 32 GB DDR5 5600, Ryzen 7 260, встроенная Radeon 780M и shared memory.Главный вопрос был практический: можно ли реально пользоваться локальной 20B-моделью на ноутбуке с 32 GB RAM, если отдельной видеокарты нет?

продолжить чтение

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально. На четвёртом модель начала врать. И врать аккуратнее, чем говорила правду.ВводнаяВышла Gemma 4 12B Unified — мультимодальная модель, которая читает не только текст, но и картинки. В квантованном виде она помещается на обычный ноутбук, и мне стало любопытно, что это даёт на практике, а не в бенчмарках.

продолжить чтение

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

CosyVoice3 — одна из лучших open source TTS моделей прямо сейчас, особенно для русского языка. Но у неё есть проблема: LLM-часть на PyTorch работает медленно на слабых GPU вроде T4. RTF (real-time factor) около 1.17 — это значит синтез одной секунды аудио занимает больше секунды реального времени.Я решил это исправить, добавив поддержку llama.cpp через llama-cpp-python. Результат: RTF упал до ~0.45, то есть ускорение примерно в 2.6x.В этой статье расскажу как это работает, почему это нетривиально, и как попробовать самому.Почему CosyVoice LLM — не обычная LLM

продолжить чтение

Локальный запуск GLM-5.1

Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных) и контекстное окно 200K. По сравнению с GLM-5 в ней улучшены написание кода, работа с инструментами и логические задачи.

продолжить чтение

Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl, это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar.

продолжить чтение

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Проблема: Галлюцинации в инженерных расчетахЯ занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внутренний язык CADINP. Это мощный, но старый процедурный язык с жестким синтаксисом: строгая последовательность модулей (AQUA -> SOFIMSHC -> ASE), специфичные команды фиксации узлов и неявные зависимости.SOTA-модели (ChatGPT-4o, Claude 3.5 Sonnet) справляются с CADINP посредственно. Основные проблемы при генерации кода general-purpose моделями:Синтаксический шум: Выдумывание несуществующих аргументов функций.Потеря контекста:

продолжить чтение

Обзор Msty: умные ассистенты и их интеграция с BotHub

продолжить чтение

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp

продолжить чтение

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

продолжить чтение

Теперь Grok 2.5 можно запускать локально

Инженеры Unsloth представили оптимизированную версию модели Grok 2.5, которая теперь может работать локально на Mac с 128 ГБ оперативной памяти. В тестах достигли скорости около пяти токенов в секунду при размере модели в 270 миллиардов параметров.

продолжить чтение

12