self-hosting.

Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8

В прошлой статье я собрал бенчмарк под свою работу, и в практике победила Gemma 4 31B — мгновенный отклик, дёшево, почти как у 744-миллиардного гиганта. Логичный следующий шаг: поднять её у себя в контуре и ответить на два вопроса, которые все задают и никто не меряет.→ Нужен ли «честный» Q8, или хватает 4-бит? → Переживает ли нормально tool-calling квантизацию?Спойлер: Q8 не дал ничего, а tool-calling держится — но не из-за кванта. Дальше — как разворачивал, на чём споткнулся, и цифры.Железо и стекОдна RTX 4090 на 48 ГБ (спот), llama.cpp

продолжить чтение

Оставлено в

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Собрал ИИ-бенчмарк под себя — и дорогие модели проиграли дешёвымПубличные лидерборды сходятся: сильнейшая открытая модель сейчас — GLM-5.2 на 744 миллиарда параметров. За ней — Kimi K2.6, DeepSeek V4. Я пару месяцев доверял этим таблицам и гонял через лучшие модели свою ежедневную работу.Потом измерил то, чего лидерборды не могут измерить — как работаю конкретно я. Тройка лидеров сжалась в ничью, а победила в практике модель в 37 раз дешевле GLM-5.2.Дальше — как я это мерил, на чём, какие были грабли, и почему «лучшая модель» и «лучшая модель для тебя» — это разные модели.Почему чужой лидерборд не подберет модель под тебя

продолжить чтение

Оставлено в

Нейропоисковик на 17 миллионов картинок: OpenCLIP, Qdrant и ZeroTier вместо облаков

Как я собрал семантический поиск по 17 миллионам картинок, не разорившись на AWSЗачем это всёЯ занимаюсь визуальными искусствами и фронтендом более 10 лет. Для креативной работы мне постоянно нужны референсы, причём основанные на ощущении, визуальном стиле, том, что на английском (да и у нас зачастую) называют vibe.Был замечательный проект same.energy, который решал именно эту задачу. Когда он перестал работать, я почувствовал себя без рук. И, как инженер, решил не ждать, а собрать свой инструмент.Задача звучала амбициозно: проиндексировать датасет на

продолжить чтение

Оставлено в

AI-агенты, RAG, вызовы vibe coding и новая эра кибербезопасности – 35+ докладов про genAI на Conversations 26-27 июня

Конференция по генеративному и разговорному AI Conversations отправляется в Санкт-Петербург! 2 дня, 4 трека, 40+ докладов, дискуссии, нетворкинг и вечеринка – всё это ждет участников Conversations 26 и 27 июня 2025 года.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

self-hosting.

Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Нейропоисковик на 17 миллионов картинок: OpenCLIP, Qdrant и ZeroTier вместо облаков

AI-агенты, RAG, вызовы vibe coding и новая эра кибербезопасности – 35+ докладов про genAI на Conversations 26-27 июня

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

self-hosting.

Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Нейропоисковик на 17 миллионов картинок: OpenCLIP, Qdrant и ZeroTier вместо облаков

AI-агенты, RAG, вызовы vibe coding и новая эра кибербезопасности – 35+ докладов про genAI на Conversations 26-27 июня