gemma.

Почему промпты для VLM работают наоборот: как это исправить

Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков.Звучало странно. Трансформеры используют позиционное кодирование, но модель видит те же пиксели и те же слова. Порядок не должен так сильно влиять. Я проверил, оказалось, автор был прав.| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса

продолжить чтение

Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул

Собрал четыре модели в один батч — одна сессия, один судья, те же пять тем. Сравнивать баллы из разных тестов нельзя: разница в пару баллов между сессиями — это шум, а не сигнал.qwen/qwen3-235b-a22b-2507 снова №1 по цене/качеству (value 91.6). Модель вышла 21 июля 2025 — почти год назад. Рынок несколько раз перетряхнуло, а она с трона не сдвинулась.DeepSeek V4 Flash был недооценён на 6 баллов. В апреле у меня стоял 83, в честном батче — 89, сильнейший по качеству из четырёх. Аутсайдер оказался лидером.Мнимый сюрприз развеялся.

продолжить чтение

Доверенный ИИ на практике: RAG, который ссылается на источник — или честно отказывается

Поднял за выходные решение, которое давно хотел проверить руками: RAG, который отвечает строго по корпусу и к каждому утверждению ставит ссылку на пункт правил — или честно пишет «В корпусе нет основания для ответа». Корпус — приказ Минспорта России №834, «Правила вида спорта “волейбол”» (плюс немного про баскетбол). Модель — Gemma-4, локально, через Ollama (сделано нарочно на Ollama, знаю про vLLM / SGLang, здесь было целью - проверить гипотезу быстро и дешево). На слое инференса ни одного внешнего вызова: можно физически отключить сеть — оно продолжает работать.Это не «ещё один чат с PDF». Цель была узкая и проверяемая:

продолжить чтение

Идеальный склероз в сером ящике — мой опыт в ИИ-программировании

ИИ все прочнее входит в работу программиста. Кто-то все еще отрицает его роль, кто-то с энтузиазмом пробует все новые возможности, но квалифицированное большинство все же трезво замечает, что ИИ пока не годится для сложных проектов, хотя простые задачи уже выполняет неплохо.Расскажу, как я сделал свой первый шаг к большому проекту на ИИ. Он в значительной степени изобретён с нуля, а не скопирован.

продолжить чтение

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

TL;DR — leaderboard за один взглядЗа последние 2 недели собрал открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском. Запустил семь моделей через ансамбль из трёх судей: Claude Opus 4.7, Gemini 3.1 Pro, GPT-5.5, DeepSeek V4 Flash, Qwen 3.5 27B, Gemma 4 31B, Qwen 3.6 27B.Frontier-closed (Opus / Gemini / GPT-5.5) — топ-3 по сырым цифрам. Открытый топ (DeepSeek V4 Flash) — четвёртая позиция, +0.58 от Gemma. И всё равно базой ЛИИ остаётся Gemma 4 31B. Защита позиции — три аргумента + разбор где конкретно живёт разрыв и почему он SFT-recoverable.РангМодельВесаnТочностьПолнота

продолжить чтение

Как Gemma и LangGraph написали законопроект победившего биопанка

Для специального бенчмарка мне потребовался нормативно-правовой документ с научной терминологией, перекрестными ссылками и набором сложных для векторизации имён. По традиции для подобных задач я использую тексты в жанре Киберпанк. Сразу вспомнил о «Манифесте Киберпанка» (слишком коротком для моей задачи) и Предложении 653 из «Видоизмененного углерода», у которого в реальности вообще нет текста.

продолжить чтение

Один разработчик, ноль строк кода — как я построил AI-систему, не умея программировать

20 000 строк кода. 9 Python-модулей. 8 JavaScript-файлов. 11 HTML-оверлеев для стримов. 16 таблиц в базе данных. 678 коллекций в базе знаний с почти 11 тысячами embeddings. Десктоп-приложение с установщиком, которое можно скачать с сайта. Telegram-бот с памятью на 30 дней. Twitch-бот с викторинами, модерацией и системой заказа музыки через YouTube.Я не написал ни одной строчки. Ни одной.Кто я такойМеня зовут Михаил, мне 28, я из Казахстана. По специальности — электромонтажник. Английский не знаю вообще никак. Книжку по Clojure пришлось переводить через AI, потому что русского издания не существует.

продолжить чтение

Для Chrome вышло расширение для локального запуска браузерного AI-ассистента на базе Gemma 4

ML-инженер Нико Мартин (Nico Martin) из Hugging Face выпустил расширение для Chrome, с помощью которого в браузере можно запустить локального AI-ассистента. Проект построен на базе Transformers.js и моделей Gemma 4 E2B и all-MiniLM-L6-v2.

продолжить чтение

Франкенштейн на 30 ГБ RAM: Как мы пересадили мозг Gemma в скелет DeepSeek и сломали Transformers

У нас было две бесплатные видеокарты T4 в Kaggle, 30 ГБ оперативной памяти и безумная идея: что будет, если взять веса классической модели (Gemma-4-31B) и хирургическим путем, без всякого дообучения, вшить их в MoE-архитектуру (DeepSeek-V4)? В академической среде вам скажут, что это невозможно: разные размерности, несовместимые слои нормализации, разные принципы роутинга токенов. Но в парадигме Ghetto MLOps нет слова «невозможно». Есть только вопрос: сколько костылей потребуется, чтобы это скомпилировалось?

продолжить чтение

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

продолжить чтение

123