
Google DeepMind выпустила Gemma 4 — четвертое поколение открытых моделей, построенное на технологиях Gemini 3. Впервые в линейке появилась модель с архитектурой “смесь экспертов” (Mixture of Experts): при 26 млрд параметров она активирует при инференсе лишь 3,8 млрд, что позволяет работать быстро без потери глубины знаний. Всего в семейство вошли четыре модели — E2B, E4B, 26B MoE и 31B Dense, веса уже доступны на Hugging Face.
Старшая, 31B Dense, уже заняла третье место среди открытых моделей в рейтинге Arena AI Text. По словам исследователей Google DeepMind Клемана Фарабе и Оливье Лакомба, команда стремилась максимизировать “интеллект на параметр” — и 31B-модель действительно конкурирует с моделями значительно большего размера. Младшие E2B и E4B рассчитаны на компактные устройства — от смартфонов на Android до Raspberry Pi и Jetson Nano — и способны работать полностью офлайн.
Все четыре модели мультимодальны: принимают изображения и видео, а младшие E2B и E4B дополнительно поддерживают аудиовход, что открывает возможность распознавания речи прямо на устройстве. Контекстное окно — до 128 тыс. токенов у компактных версий и до 256 тыс. у старших. В отличие от предыдущих поколений Gemma, у четвертого есть нативная поддержка вызова функций и структурированного вывода в JSON — то есть модели изначально спроектированы для агентских сценариев.
Gemma 4 поддерживает более 140 языков и распространяется под лицензией Apache 2.0, снимающей большинство коммерческих ограничений. Веса доступны на Hugging Face, Kaggle, Ollama, LM Studio и Docker. Для Google релиз — шаг к доминированию в сегменте «локального ИИ»: даже старшие модели семейства помещаются на одном GPU, что делает их привлекательными для задач с низкой задержкой и требованиями к цифровому суверенитету.
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm


