Gemini 3 Flash — новая модель в линейке Gemini 3, которая сочетает Pro-уровень reasoning с минимальной задержкой и агрессивной оптимизацией по стоимости.

По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro. При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.
Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество. Google явно двигают Pareto-границу «качество ↔ стоимость ↔ скорость».

По скорости Gemini 3 Flash — один из самых быстрых frontier-кандидатов на рынке: до 3× быстрее 2.5 Pro по данным Artificial Analysis. Цена — $0.50 за 1M входных и $3 за 1M выходных токенов (аудио — $1). Это уже territory не «премиум-LLM», а массового продакшна.
Для разработчиков важный сигнал — SWE-bench Verified: 78%, что выше не только всей 2.5-серии, но и Gemini 3 Pro. Flash явно нацелен на агентные сценарии, high-frequency workflows и интерактивные системы, где latency критичнее абсолютного максимума в reasoning.
Модель хорошо заходит в мультимодальные пайплайны: видеоанализ, визуальный Q&A, data extraction, A/B-эксперименты, in-game ассистенты.
Gemini 3 Flash уже стала дефолтной моделью:
— в Gemini API, Gemini CLI и Google Antigravity
— в Vertex AI и Gemini Enterprise
— в Gemini app (заменяет 2.5 Flash)
— в AI Mode в Google Search
Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
Автор: python_leader


