- BrainTools - https://www.braintools.ru -

Буду честен. Я перестал следить за Gemma после второй версии. Не потому что она была плохой — просто она никогда не воспринималась как серьёзный конкурент китайским гигантам открытого ИИ: DeepSeek, Qwen — моделям, которые разработчики действительно разворачивали в продакшене. Gemma была моделью, которую ты один раз пробовал на Kaggle, а потом забывал. Сегодня Google всё изменил. Полностью.
Gemma 4 вышла 2 апреля 2026 года. И технический директор Hugging Face Жюльен Шомон написал об этом с буквальными эмодзи-огоньками, назвав это «ЭКСТРЕННОЙ НОВОСТЬЮ». Когда CTO платформы, которая хостит все открытые модели на планете, говорит, что Google вернулся в игру, — стоит обратить внимание [1].
Gemma 4 — это новейшее семейство моделей с открытыми весами от Google DeepMind. Построено на тех же исследованиях и технологиях, что и Gemini 3 — их проприетарная флагманская модель.
Четыре размера моделей. Четыре сценария развёртывания:
E2B (эффективные 2 млрд параметров): Работает на телефонах, Raspberry Pi, Jetson Nano. Да, серьёзно.
E4B (эффективные 4 млрд параметров): Чуть крупнее, но всё ещё помещается на телефон.
26B MoE (Mixture of Experts, 4 млрд активных): Активирует лишь 3,8 млрд параметров при инференсе, хотя всего в модели 25,2 млрд. Работает почти так же быстро, как 4-миллиардная модель.
31B Dense: Флагман. Сейчас на 3-м месте среди всех открытых моделей в текстовом рейтинге Arena AI.
Все четыре модели обрабатывают изображения и видео. Младшие модели E2B и E4B также поддерживают нативный аудиовход: распознавание речи прямо на устройстве, без облака. Контекстное окно — до 128K токенов для edge-моделей и 256K для старших. Это целая кодовая база в одном промпте.
Вот тут всё становится серьёзно. Данные из официальной карточки модели Gemma 4, варианты, дообученные на инструкциях (instruction-tuned):



Позвольте выделить цифры, которые имеют наибольшее значение.
AIME 2026: 89,2 % для модели 31B. Это бенчмарк по математическим олимпиадам. Gemma 3 27B набирала 20,8 %. Улучшение в 4 раза за одно поколение.
Codeforces ELO: 2150 для 31B. Для контекста: Gemma 3 набирала 110. Это не опечатка. Скачок в программировании — ошеломляющий.
LiveCodeBench v6: 80,0 % против 29,1 % у Gemma 3. Почти утроилось.
GPQA Diamond: 84,3 %. Это вопросы уровня PhD по естественным наукам, где эксперты-люди набирают около 65 %.
Модель MoE особенно интересна. При общем объёме 26 млрд параметров и лишь 3,8 млрд активных при инференсе она набирает 82,3 % на GPQA Diamond. Работает на скорости, близкой к 4-миллиардной модели, а выдаёт интеллект [2], близкий к 31-миллиардной.
Кстати, об инструментах. Если вам нужен доступ ко всем ключевым моделям — Claude, GPT, Gemini — загляните на BotHub.

Для доступа не требуется VPN, можно использовать российскую карту.
По ссылке вы можете получить 300 000 бесплатных токенов [3] для первых задач и приступить к работе с нейросетями прямо сейчас!

Цифры в изоляции ничего не значат. Поэтому давайте поставим Gemma 4 рядом с проприетарными моделями, которые все реально используют: Claude Opus 4.6, GPT-5.2, а также открытым гигантом Kimi K2.5.
(Таблица из оригинала)
Важная оговорка, прежде чем углубимся: это не идеально корректное сравнение. Gemma 4 31B — это 31 миллиард параметров. Claude Opus 4.6 и GPT-5.2 — проприетарные модели с нераскрытым количеством параметров, почти наверняка сотни миллиардов или больше. Kimi K2.5 — триллион параметров всего (32 млрд активных). Сам факт, что Gemma 4 вообще участвует в одном разговоре с этими моделями, — и есть главная новость.

Gemma 4 31B набирает 84,3 % на научных вопросах уровня PhD. Это отстаёт от Claude Opus 4.6 (91,3 %) и GPT-5.2 (92,4 %) примерно на 7–8 пунктов. Но вот в чём дело: те — массивные проприетарные модели, работающие на серверных фермах. Gemma 4 работает на вашем ноутбуке. И она опережает Claude Sonnet 4.6 (74,1 %) — модель, которую многие разработчики используют ежедневно, — более чем на 10 пунктов.

Примечание: Gemma 4 отчитывается по AIME 2026 (более сложный набор задач), тогда как большинство других моделей оценивались на AIME 2025. Даже с учётом этого, 89,2 % на олимпиадной математике [4] от 31-миллиардной модели — это выдающийся результат. GPT-5.2 и Claude Opus 4.6 достигают почти идеальных баллов, но это проприетарные флагманы с на порядки бо́льшим объёмом вычислений. Kimi K2.5 набирает 95,8 %, но при триллионе параметров.

Gemma 4 31B набирает 85,2 % на MMLU Pro. Это почти вплотную к Kimi K2.5 (87,1 %), несмотря на 30-кратно меньшее общее количество параметров. Она также, по всей видимости, конкурирует с Claude Opus 4.6 или даже немного опережает его заявленный результат MMLU Pro — примерно 82 %.

Gemma 4 показывает 80,0 % на LiveCodeBench v6 и Codeforces ELO 2150. Хотя прямые результаты SWE-Bench Verified пока недоступны, уровень программирования явно конкурентоспособен на уровне флагманов. Результат LiveCodeBench ставит 31-миллиардную модель в один ряд с Kimi K2.5, у которой, напомню, в 32 раза больше параметров.

По мультимодальным визуальным рассуждениям Gemma 4 31B идёт практически вровень с Claude Sonnet 4.6. Для открытой 31-миллиардной модели это исключительный результат.
Вот таблица, которая рассказывает настоящую историю. Здесь речь об эффективности:

Обратите особое внимание на модель 26B MoE. Она активирует всего 3,8 миллиарда параметров на токен. Это примерно вычислительный «отпечаток» маленькой модели. И она набирает 82,3 % на GPQA Diamond и 82,6 % на MMLU Pro.
Kimi K2.5 активирует 32 млрд параметров на токен при триллионе суммарных, получая 87,6 % GPQA / 87,1 % MMLU Pro. Это примерно на 5 пунктов выше — при 8-кратно бо́льшем количестве активных параметров за шаг инференса и на порядок бо́льших требованиях к хранилищу.
Проприетарные модели по-прежнему побеждают по абсолютным баллам. Это ожидаемо. Но разрыв стремительно сокращается, а экономика развёртывания Gemma 4 — из совершенно другой вселенной. Никаких расходов на API. Данные не покидают вашу машину. Никакой привязки к вендору.
Gemma 4 не обгоняет Claude Opus 4.6 или GPT-5.2 по чистым бенчмаркам. Кто утверждает обратное — врёт.
Но это и не тот вопрос, который нужно задавать. Правильный вопрос: какая лучшая модель, которую я могу запустить локально, на своём железе, под полностью свободной лицензией, с нулевыми расходами на API?
И по этому вопросу Gemma 4 — очень сильный кандидат. Она уступает 7–8 пунктов на GPQA Diamond и примерно 4–5 пунктов на MMLU Pro лучшим проприетарным моделям, но взамен предлагает то, чего те никогда не смогут дать: полное владение и нулевую предельную стоимость инференса.
Для многих реальных применений этот компромисс не просто приемлем. Он предпочтителен.
Предыдущие модели Gemma выходили под собственной лицензией Google — Gemma License. Она была разрешительной, да. Но не по-настоящему открытой.
Gemma 4 выходит под Apache 2.0 — той же лицензией, что Kubernetes, TensorFlow и Apache Spark.
Это колоссальное событие. Сооснователь Hugging Face Клеман Делланге назвал это «огромной вехой». Никаких ограничений на использование. Никаких требований отчётности. Полное коммерческое использование. Форкайте, дообучайте, разворачивайте как хотите.
Для стартапов и предприятий, создающих ИИ-продукты: это устраняет одно из главных препятствий на пути к внедрению Gemma. Модель — ваша. Данные — ваши. Развёртывание — ваше.
Позвольте дать стратегический контекст. Посмотрите на рейтинг открытых моделей Arena AI до сегодняшнего дня. Верхние строчки занимали китайские модели: DeepSeek, Qwen и их производные. Присутствие США в открытом ИИ в основном обеспечивалось Llama от Meta и Nemotron от Nvidia.
Серия Gemma от Google набрала 400 миллионов загрузок. Более 100 000 вариантов от сообщества. Но по фактическому использованию (данные OpenRouter рассказывают эту историю) Gemma стабильно отставала от Llama и DeepSeek.
Gemma 4 — ответ Google. Модель 31B сейчас на 3-м месте в рейтинге Arena AI. MoE 26B — на 6-м. Обе превосходят модели, которые в 20 раз крупнее. Это не просто выпуск модели. Это Google, говорящий: мы конкурируем за экосистему открытого ИИ. На этот раз серьёзно.
Вот тут начинается практика. Вот как запустить Gemma 4 на своём железе прямо сегодня:
Сначала обновите llama.cpp:
Bashbrew upgrade llama.cpp
# или установите из HEAD, если последняя сборка ещё недоступна:
brew install llama.cpp --HEAD
brew upgrade llama.cpp
# или установите из HEAD, если последняя сборка ещё недоступна:
brew install llama.cpp --HEAD
Если у вас 16 ГБ RAM/VRAM (MacBook, большинство ноутбуков):
Bashllama-server -hf ggml-org/gemma-4-E4B-it-GGUF:Q8_0
llama-server -hf ggml-org/gemma-4-E4B-it-GGUF:Q8_0
Если у вас 24 ГБ+ RAM/VRAM (MacBook Pro, RTX 3090):
Bashllama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q4_K_M
Если у вас 32 ГБ VRAM (RTX 5090):
Bashllama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q8_0
llama-server -hf ggml-org/gemma-4-26B-A4B-it-GGUF:Q8_0
Неквантованные веса модели 31B Dense помещаются на один 80-гигабайтный NVIDIA H100. Квантованные версии работают на потребительских GPU.
Поддержка с первого дня по всей экосистеме: Hugging Face Transformers, vLLM, llama.cpp, MLX, Ollama, LM Studio, Unsloth, SGLang, NVIDIA NIM и другие.
Несколько конструктивных решений выделяются:
Послойные эмбеддинги (PLE): Модели E2B и E4B используют хитрый приём. Вместо того чтобы делать модель шире или глубже, каждый слой декодера получает собственную маленькую таблицу эмбеддингов. Эти таблицы велики по размеру, но используются только для быстрого поиска. Поэтому «эффективное» количество параметров (то, что реально работает при инференсе) значительно меньше общего числа. E2B имеет 5,1 млрд параметров всего, но лишь 2,3 млрд эффективных.
Гибридное внимание: Все модели чередуют локальное скользящее оконное внимание с полным глобальным. Локальные окна обеспечивают скорость инференса. Слои глобального внимания (всегда включая последний) поддерживают глубокое понимание на длинных контекстах.
Mixture of Experts, сделанный правильно: MoE 26B использует 128 экспертов, из которых 8 активны на каждый токен, плюс 1 общий эксперт. При инференсе активируются только 3,8 млрд параметров. Это даёт интеллект класса 26B на скорости класса 4B.
Нативный вызов функций: Не «прикрученный потом». Gemma 4 поддерживает структурированный JSON-вывод и вызов функций нативно. Это критически важно для создания агентов, взаимодействующих с внешними инструментами и API.
Настраиваемый режим размышлений: Все модели поддерживают встроенный режим рассуждений. Добавьте <|think|> в системный промпт — и модель генерирует пошаговые рассуждения перед финальным ответом. Отключите его для быстрых ответов, когда глубокие рассуждения не нужны.
Цифры говорят сами за себя. 400 миллионов загрузок. Более 100 000 вариантов от сообщества. Специализированные производные:
MedGemma: Медицинская визуализация и генерация клинических отчётов.
DolphinGemma: Анализ вокализации дельфинов.
SignGemma: Перевод жестового языка.
Одна исследовательская группа даже обучила Gemma 4 управлять автомобилем в симуляторе CARLA, используя мультимодальные ответы с вызовом инструментов: модель видит дорогу через камеру, принимает решения и учится на результатах. Вот так выглядит здоровая экосистема открытого кода. Базовая модель достаточно хороша, чтобы люди создавали на её основе по-настоящему новаторские вещи.
Я начинал эту статью как скептик. Меня уже обжигали обещания Google в области открытых моделей. Но улучшения бенчмарков здесь не инкрементальные. Перейти от Codeforces ELO 110 к 2150 за одно поколение — беспрецедентно. Скачок AIME с 20,8 % до 89,2 % — это не маркетинговая мишура: это фундаментально другая модель.
Лицензия Apache 2.0 снимает моё главное возражение. Требования к железу разумны. Поддержка экосистемы — всесторонняя с первого дня.
Лучшая ли это открытая модель в мире? 31B занимает 3-е место в Arena AI. Не первое. У DeepSeek и Qwen по-прежнему сильные предложения. Но Google теперь по-настоящему конкурентоспособен в этом пространстве.
Для всех, кто создаёт локальные ИИ-приложения, агентные рабочие процессы или интеллект на устройстве: Gemma 4 заслуживает серьёзного рассмотрения. Особенно 26B MoE. Эта модель — тёмная лошадка данного релиза.
Война в мире открытого ИИ стала намного интереснее.
Автор: cognitronn
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28618
URLs in this post:
[1] внимание: http://www.braintools.ru/article/7595
[2] интеллект: http://www.braintools.ru/article/7605
[3] По ссылке вы можете получить 300 000 бесплатных токенов: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim
[4] математике: http://www.braintools.ru/article/7620
[5] Источник: https://habr.com/ru/companies/bothub/articles/1021636/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1021636
Нажмите здесь для печати.