
Google выпускает Gemma 4, свою самую функциональную линейку устройств с открытой архитектурой. Четыре новые модели работают на самых разных устройствах, от смартфонов до рабочих станций, и впервые поставляются под полностью открытой лицензией Apache 2.0.
Эти модели основаны на той же технологии, что и проприетарная технология Google Gemini 3, и публикуются под коммерчески свободной лицензией Apache 2.0, предоставляющей разработчикам полный контроль над своими данными, инфраструктурой и моделями. Более ранние версии Gemma распространялись под более ограничительной проприетарной лицензией Google.
По данным Google, все модели Gemma 4 обеспечивают значительные улучшения в многоэтапных задачах рассуждения и математических вычислениях. Для рабочих процессов агентов они изначально поддерживают вызов функций, структурированный вывод JSON и системные инструкции, позволяя автономным агентам использовать различные инструменты и API.
Четыре типоразмера моделей охватывают весь спектр устройств, от периферийных устройств до рабочих станций
Gemma 4 выпускается в четырех размерах: Effective 2B (E2B), Effective 4B (E4B), модель Mixture-of-Experts (MoE) размером 26B и модель Dense размером 31B. Все четыре модели выходят за рамки простого чата и обрабатывают сложную логику и рабочие процессы агентов.
|
|
E2B |
E4B |
26B MoE |
31B Thinking |
|---|---|---|---|---|
|
Активные параметры |
“эффективные” 2 миллиарда |
“эффективные” 4 миллиарда |
3,8 миллиарда активных |
– |
|
Архитектура |
– |
– |
Министерство образования |
Плотный |
|
Контекстное окно |
128 тыс. токенов |
128 тыс. токенов |
до 256 тыс. токенов |
до 256 тыс. токенов |
|
Целевое оборудование |
Смартфоны, Raspberry Pi, Jetson Orin Nano |
Смартфоны, Raspberry Pi, Jetson Orin Nano |
Персональные компьютеры, потребительские графические процессоры (квантованные), рабочие станции, ускорители. |
Персональные компьютеры, потребительские графические процессоры (квантованные), рабочие станции, ускорители. |
|
Работа в автономном режиме |
+ |
+ |
+ |
+ |
|
Видео (изображения/видео) |
+ |
+ |
+ |
+ |
|
Аудиовход |
+ |
+ |
– |
– |
|
Квантование на потребительском графическом процессоре |
– |
– |
+ |
+ |
|
Рейтинг Arena AI (открытый) |
– |
– |
#6 |
#3 |
|
Особая функция |
Эффективность вычислений и памяти на периферийных устройствах |
Эффективность вычислений и памяти на периферийных устройствах |
Оптимизировано для снижения задержки, 3,8 миллиарда активных параметров, быстрая генерация токенов. |
Максимальное качество, основа для тонкой настройки. |
Модель 31B в настоящее время занимает 3-е место среди всех открытых моделей в мире в рейтинге Arena AI Text Leaderboard, а модель 26B MoE — 6-е. Google утверждает, что Gemma 4 превосходит модели в 20 раз большего размера. Для разработчиков это означает высокую производительность при значительно меньших требованиях к оборудованию.
|
Benchmark |
|
Gemma 4 31B IT Thinking |
Gemma 4 26B A4B IT Thinking |
Gemma 4 E4B IT Thinking |
Gemma 4 E2B IT Thinking |
Gemma 3 27B IT |
|---|---|---|---|---|---|---|
|
Arena AI (text) (As of 4/2/26) |
|
1452 |
1441 |
– |
– |
1365 |
|
MMLU (Multilingual Q&A) |
No tools |
85.2% |
82.6% |
69.4% |
60.0% |
67.6% |
|
MMMU Pro (Multimodal reasoning) |
|
76.9% |
73.8% |
52.6% |
44.2% |
49.7% |
|
AIME 2026 (Mathematics) |
No tools |
89.2% |
88.3% |
42.5% |
37.5% |
20.8% |
|
LiveCodeBench v6 (Competitive coding problems) |
|
80.0% |
77.1% |
52.0% |
44.0% |
29.1% |
|
GPQA Diamond (Scientific knowledge) |
No tools |
84.3% |
82.3% |
58.6% |
43.4% |
42.4% |
|
τ2-bench (Agentic tool use) |
Retail |
86.4% |
85.5% |
57.5% |
29.4% |
6.6% |
Две более крупные модели ориентированы на рабочие станции и серверы. Неквантованные значения bfloat16 модели 31B помещаются на одном 80-гигабайтном графическом процессоре NVIDIA H100, а квантованные версии должны работать и на потребительских видеокартах.
Модель MoE с 26 миллиардами токенов активирует всего 3,8 миллиарда своих параметров во время вывода, что должно обеспечить особенно быструю генерацию токенов. Модель Dense с 31 миллиардом токенов, напротив, стремится к максимальному качеству и предназначена для использования в качестве основы для тонкой настройки.

Меньшие по размеру модели E2B и E4B специально разработаны для мобильных устройств и оборудования IoT. В процессе обработки данных они активируют всего два и четыре миллиарда параметров соответственно, что позволяет экономить память и заряд батареи. Обе модели для периферийных устройств обрабатывают изображения, видео и аудиовход для распознавания речи. Их контекстное окно охватывает 128 000 токенов, в то время как более крупные модели могут обрабатывать до 256 000 токенов.
Независимые тесты от Artificial Analysis подтверждают результаты для более крупных моделей Gemma 4. В тесте GPQA Diamond для научного анализа Gemma 4 31B набирает 85,7% в режиме анализа. По данным Artificial Analysis, это второй лучший результат среди всех открытых моделей с менее чем 40 миллиардами параметров, сразу после Qwen3.5 27B с 85,8%. При объеме выходных токенов около 1,2 миллиона Gemma 4 31B, вероятно, также требует меньше вычислительных ресурсов, чем Qwen3.5 27B (1,5 миллиона) и Qwen3.5 35B A3B (1,6 миллиона).

Модель 26B MoE набирает 79,2% в том же бенчмарке, опережая gpt-oss-120B от OpenAI (76,2%), но уступая Qwen3.5 9B (80,6%). Artificial Analysis отмечает, что обе оцениваемые модели работают на одном графическом процессоре H100. Полная оценка всех четырех моделей Gemma 4 в индексе интеллекта Artificial Analysis пока не завершена. Как всегда, результаты бенчмарков лишь частично позволяют прогнозировать реальную производительность.
Где скачать Gemma 4 и какие платформы она поддерживает
Gemma 4 уже доступна на Hugging Face и Kaggle. Google AI Studio поддерживает модели 31B и 26B, а Google AI Edge Gallery — варианты E4B и E2B.
На момент запуска модели работают с широким спектром фреймворков и платформ, включая Hugging Face Transformers, vLLM, MLX, NVIDIA NIM и NeMo, LM Studio, Unsloth, SGLang, Keras и другие. Тонкая настройка осуществляется через Google Colab, Vertex AI или локальные игровые графические процессоры. Для развертывания в производственной среде модели масштабируются до Google Cloud через Vertex AI, Cloud Run и GKE.
Что касается аппаратной части, Google заявляет о поддержке Gemma 4 оборудования NVIDIA, начиная с Jetson Orin Nano и заканчивая графическими процессорами Blackwell, графических процессоров AMD через стек ROCm, а также собственных TPU Google Trillium и Ironwood.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


