gemma.

Развернул Gemma 4 31B на одной 4090 48GB — и проверил, нужен ли Q8

В прошлой статье я собрал бенчмарк под свою работу, и в практике победила Gemma 4 31B — мгновенный отклик, дёшево, почти как у 744-миллиардного гиганта. Логичный следующий шаг: поднять её у себя в контуре и ответить на два вопроса, которые все задают и никто не меряет.→ Нужен ли «честный» Q8, или хватает 4-бит? → Переживает ли нормально tool-calling квантизацию?Спойлер: Q8 не дал ничего, а tool-calling держится — но не из-за кванта. Дальше — как разворачивал, на чём споткнулся, и цифры.Железо и стекОдна RTX 4090 на 48 ГБ (спот), llama.cpp

продолжить чтение

Как утки с СДВГ довели меня до опенсорса: зачем я собрал утилиту для перевода коротких видео на домашней видеокарте

Dub Studio - локальная утилита для перевода коротких роликов. Та самая утка тоже тут.

продолжить чтение

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Собрал ИИ-бенчмарк под себя — и дорогие модели проиграли дешёвымПубличные лидерборды сходятся: сильнейшая открытая модель сейчас — GLM-5.2 на 744 миллиарда параметров. За ней — Kimi K2.6, DeepSeek V4. Я пару месяцев доверял этим таблицам и гонял через лучшие модели свою ежедневную работу.Потом измерил то, чего лидерборды не могут измерить — как работаю конкретно я. Тройка лидеров сжалась в ничью, а победила в практике модель в 37 раз дешевле GLM-5.2.Дальше — как я это мерил, на чём, какие были грабли, и почему «лучшая модель» и «лучшая модель для тебя» — это разные модели.Почему чужой лидерборд не подберет модель под тебя

продолжить чтение

Почему промпты для VLM работают наоборот: как это исправить

Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков.Звучало странно. Трансформеры используют позиционное кодирование, но модель видит те же пиксели и те же слова. Порядок не должен так сильно влиять. Я проверил, оказалось, автор был прав.| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса

продолжить чтение

Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул

Собрал четыре модели в один батч — одна сессия, один судья, те же пять тем. Сравнивать баллы из разных тестов нельзя: разница в пару баллов между сессиями — это шум, а не сигнал.qwen/qwen3-235b-a22b-2507 снова №1 по цене/качеству (value 91.6). Модель вышла 21 июля 2025 — почти год назад. Рынок несколько раз перетряхнуло, а она с трона не сдвинулась.DeepSeek V4 Flash был недооценён на 6 баллов. В апреле у меня стоял 83, в честном батче — 89, сильнейший по качеству из четырёх. Аутсайдер оказался лидером.Мнимый сюрприз развеялся.

продолжить чтение

Доверенный ИИ на практике: RAG, который ссылается на источник — или честно отказывается

Поднял за выходные решение, которое давно хотел проверить руками: RAG, который отвечает строго по корпусу и к каждому утверждению ставит ссылку на пункт правил — или честно пишет «В корпусе нет основания для ответа». Корпус — приказ Минспорта России №834, «Правила вида спорта “волейбол”» (плюс немного про баскетбол). Модель — Gemma-4, локально, через Ollama (сделано нарочно на Ollama, знаю про vLLM / SGLang, здесь было целью - проверить гипотезу быстро и дешево). На слое инференса ни одного внешнего вызова: можно физически отключить сеть — оно продолжает работать.Это не «ещё один чат с PDF». Цель была узкая и проверяемая:

продолжить чтение

Идеальный склероз в сером ящике — мой опыт в ИИ-программировании

ИИ все прочнее входит в работу программиста. Кто-то все еще отрицает его роль, кто-то с энтузиазмом пробует все новые возможности, но квалифицированное большинство все же трезво замечает, что ИИ пока не годится для сложных проектов, хотя простые задачи уже выполняет неплохо.Расскажу, как я сделал свой первый шаг к большому проекту на ИИ. Он в значительной степени изобретён с нуля, а не скопирован.

продолжить чтение

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

TL;DR — leaderboard за один взглядЗа последние 2 недели собрал открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском. Запустил семь моделей через ансамбль из трёх судей: Claude Opus 4.7, Gemini 3.1 Pro, GPT-5.5, DeepSeek V4 Flash, Qwen 3.5 27B, Gemma 4 31B, Qwen 3.6 27B.Frontier-closed (Opus / Gemini / GPT-5.5) — топ-3 по сырым цифрам. Открытый топ (DeepSeek V4 Flash) — четвёртая позиция, +0.58 от Gemma. И всё равно базой ЛИИ остаётся Gemma 4 31B. Защита позиции — три аргумента + разбор где конкретно живёт разрыв и почему он SFT-recoverable.РангМодельВесаnТочностьПолнота

продолжить чтение

Как Gemma и LangGraph написали законопроект победившего биопанка

Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста.

продолжить чтение

Один разработчик, ноль строк кода — как я построил AI-систему, не умея программировать

20 000 строк кода. 9 Python-модулей. 8 JavaScript-файлов. 11 HTML-оверлеев для стримов. 16 таблиц в базе данных. 678 коллекций в базе знаний с почти 11 тысячами embeddings. Десктоп-приложение с установщиком, которое можно скачать с сайта. Telegram-бот с памятью на 30 дней. Twitch-бот с викторинами, модерацией и системой заказа музыки через YouTube.Я не написал ни одной строчки. Ни одной.Кто я такойМеня зовут Михаил, мне 28, я из Казахстана. По специальности — электромонтажник. Английский не знаю вообще никак. Книжку по Clojure пришлось переводить через AI, потому что русского издания не существует.

продолжить чтение