- BrainTools - https://www.braintools.ru -
Я снова возвращаюсь к сравнению моделей. Однако сегодня мы не будем рассматривать нейросети от разных компаний, а сравним Gemini 3 Flash и предыдущее поколение этой серии – Gemini 2.5 Flash.
С одной стороны, кто-то уже сейчас скажет, что третья версия будет лучше. Однако я не стану спешить с таким выводом, сравню обе версии и вынесу вердикт, опираясь на свое далеко не авторитетное мнение.
Принимайте стратегически удобное положение, делайте ставки, а я приступаю к сравнению.

Языковая модель, разработанная Google DeepMind 18 апреля 2025 года. Главное преимущество – высокая скорость генерации при сохранении точности и логичности ответов.
Модель способна работать с разными типами входных данных и обрабатывать до 1 млн токенов за раз. По сравнению с конкурентами своего времени она значительно дешевле. На момент выхода лишь o4-mini от OpenAI приблизился к ней по соотношению цены и качества
Следующая версия линейки выпущена 17 декабря 2025 года. Модель в ряде внутренних тестов обрабатывает запросы быстрее своего предшественника и в некоторых сценариях даже быстрее Gemini 3 Pro.
Контекстное окно такое же, как и у версии 2.5 Flash. Ключевое улучшение – пожалуй, более быстрая обработка мультимодальных действий.
Как уже стало традицией в моих последних статьях-сравнениях, озвучу условия тестирования.
Модели будут сравниваться в четырех дисциплинах: написание текста, решение задач из высшей математики [1], программирование и логика [2].
Каждая задача может получить одну из трех оценок: полностью выполнена (+), частично выполнена (+−) и полный провал (−). В конце подведу итоги в таблице с результатами и своими комментариями по каждому заданию, если сочту их нужными.
Напиши комедийный рассказ в жанре научной фантастики, состоящий из трех небольших глав. Действие происходит в далеком будущем в галактической человеческой цивилизации.
Основные требования:
Сюжет: История обычного человека (например, техника, курьера, бюрократа), который по нелепой случайности [3] попадает в центр межгалактического конфликта [4] или абсурдной авантюры. Ключ – комедийные недоразумения и попытки выпутаться, которые лишь усугубляют ситуацию.
Юмор [5]: Основан на контрасте высоких технологий и низменных человеческих слабостей, сатире на современность, нелепых диалогах и гиперболе.
Мир: Яркий, но не перегруженный деталями. Технологии должны быть на грани поломки, а грандиозные космические явления – вызывать бытовые неудобства.
Структура: Три небольшие главы с четкой драматургией. В каждой главе должна быть своя комедийная кульминация.
Финал: Должен быть удовлетворительным, подводить итоги трансформации героя и оставлять легкое, ироничное послевкусие.
Математические задачи будут подгружаться в модель фотографиями – заодно проверим понимание промта из текста и сразу нескольких изображений, хотя не думаю, что здесь возникнут трудности. Всего будет три задания.



Ты – профессиональный программист. Напиши программу, реализующую инженерный калькулятор со всеми его функциями. Реализуй GUI, историю вычислений, все базовые функции инженерного калькулятора. Сделай дополнительную кнопку, с помощью которой можно запустить игру «Змейка» со всеми ее основными механиками. Язык программирования – Python.
Пару раз уже давал моделям задачи на логику, но теперь я постарался найти что-то посложнее предыдущих вариантов. Слишком уж они были простыми, а здесь все не так очевидно (по крайней мере, мне так показалось).
Врач прописал больному 3 таблетки и велел принимать их через каждые полчаса. Сколько времени уйдет на прием таблеток?
Представлен ряд из шести чашек на столе. Три первые из них ничем не наполнены, а три следующие – с водой. Как добиться чередования пустых чашек и чашек с водой, касаясь разрешается только одной чашки, при этом толкать чашку чашкой запрещается?
На улице развесили плакаты: «Граждане, будьте бдительны, орудуют воры-карманники». Полицейские знали о том, что на улице действительно небезопасно, но срывали эти объявления. Почему?
В каком случае достижение предшествует цели, стремлению и успеху?
Обе модели линейки для сравнения были взяты у агрегатора нейросетей BotHub. Список нейросетей там обширен – от работы с текстом до транскрибации и генерации видео. По специальной ссылке [6] для регистрации можно получить 100 000 капсов для собственных экспериментов.

Сам рассказ написан действительно неплохо, однако комедийная составляющая, по моему мнению, если здесь и есть, то лишь в названиях вещей и мест. Да и то никакого особого смеха текст не вызывает.
Засчитываю как частичное выполнение: рассказ все-таки есть, написан вполне прилично и соответствует заявленной тематике. Но комедии, увы, практически никакой не наблюдается.

Рассказ от Gemini 3 Flash произвел на меня более приятное впечатление [7]. Текст вновь хорош, да еще и комедийная составляющая появилась. Конечно, ее немного, но я бы даже записал это в плюс – избыток примитивного юмора мог испортить впечатление от рассказа.

Первое задание сразу уходит в раздел неправильно выполненных. Как можно проводить операции над множествами, если сами эти множества определены неверно?
Второе и третье задания выполнены корректно, хотя решение третьего можно было бы сделать менее громоздким. Тем не менее, модель снова получает очки за частичный успех.

Gemini 3 Flash, как и Gemini 2.5 Flash, ошибается в первой задаче. Он опять-таки не получил начальных данных, не говоря уже о каких-либо операциях с множествами.
Что касается остальных двух заданий – здесь все безупречно. Мне нравится предложенное решение, оно лучше предыдущего варианта, и никаких замечаний у меня нет.

Вот вроде бы калькулятор есть и игра тоже присутствует. Однако обратим внимание [8] на то, что в калькуляторе отсутствуют стандартные функции сложения и вычитания.
В остальном все работает достаточно хорошо и без нареканий. Хотя как без плюса и минуса пользоваться калькулятором – не особо понятно, да и какой от него смысл? Ну, можем использовать для вычисления степени числа, синуса. Все же из-за такого просчета засчитать полное выполнение задания я не могу.

Gemini 3 Flash сделал калькулятор идеально. Все работает без каких-либо нареканий. А вот к змейке у меня есть вопросы. Просидев энное время, я так и не понял, как ею управлять. По инструкции от модели – стрелочками, а по факту – видимо, только силой какой-то извилины [9] в мозге [10], да и то пока непонятно, какой именно.
Опять же, не могу считать задание полностью выполненным, поскольку хотя половина задания и была выполнена, но считать вторую рабочей невозможно.

Единственное, что мне мешает засчитать это задание как полностью решенное, – вторая задачка. Модель почему-то выбрала четвертую чашку (исходя из ее объяснений), хотя правильный вариант выбора – пятая.
Вообще в этом случае сложно определить: с одной стороны, Gemini 2.5 Flash говорит, что берем вторую чашку с водой (то есть пятую в общем количестве), а потом сразу поясняет, что порядковый номер у нее – четыре (что не сходится с ее же объяснениями).

Gemini 3 Flash щелкает эти задачи как орешки, получая везде правильный ответ.
|
ЗаданиеМодель |
Gemini 2.5 Flash |
Gemini 3 Flash |
Комментарий |
|
Первое задание |
+- |
+ |
Gemini 2.5 Flash хоть и написал хороший текст, но оформить хоть как-то адекватно комедию не смог. |
|
Второе задание |
+- |
+- |
Обе модели не справились с операциями над множествами. При чем провалили это задание на моменте получения значений этих множеств. |
|
Третье задание |
+- |
+- |
Gemini 2.5 Flash забыл об стандартных операциях сложения и вычитания. Gemini 3 Flash не смог реализовать рабочую версию змейки. |
|
Четвертое задание |
+- |
+ |
Gemini 2.5 Flash допустил ошибку [11] в собственных суждениях, что мешает модели прийти к верному ответу. |
Итог оказался предсказуемым – Gemini 3 Flash превосходит своего предшественника, хотя в некоторых моментах все же есть одинаковые ошибки.
Можно ли сказать, что Gemini 2.5 Flash однозначно плох? Нет, конечно нет. Модель по-прежнему демонстрирует удовлетворительные результаты, хотя по качеству уже отстает от вариантой нынешнего времени.
Касательно того, где и какую модель лучше выбрать. Для текста и логики лучше подойдет Gemini 3 Flash, который хорошо показывает себя в этих направлениях. В остальных дисциплинах я бы не сказал, что возможности у моделей как-то сильно разняться.
Спасибо за прочтение!
Автор: MrRjxrby
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23883
URLs in this post:
[1] математики: http://www.braintools.ru/article/7620
[2] логика: http://www.braintools.ru/article/7640
[3] случайности: http://www.braintools.ru/article/6560
[4] конфликта: http://www.braintools.ru/article/7708
[5] Юмор: http://www.braintools.ru/article/3517
[6] специальной ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[7] впечатление: http://www.braintools.ru/article/2012
[8] внимание: http://www.braintools.ru/article/7595
[9] извилины: http://www.braintools.ru/article/3345
[10] мозге: http://www.braintools.ru/parts-of-the-brain
[11] ошибку: http://www.braintools.ru/article/4192
[12] Источник: https://habr.com/ru/companies/bothub/articles/981870/?utm_source=habrahabr&utm_medium=rss&utm_campaign=981870
Нажмите здесь для печати.