- BrainTools - https://www.braintools.ru -
Помните анекдот?
— Что вы умеете лучше всего?
— Я очень быстро считаю.
— Сколько будет 758×652÷9?
— 22!
— Но это же неправильно!
— Зато очень быстро.
TL;DR: Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM “Испытание Дали” по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты.
Меня зовут Михаил Радионов, я основатель Флаг Софт [1] — агентства разработки AI-сервисов с 15-летней историей. Пет-проект, из которого вырос бенчмарк, называется AI Quiz. Я создал его как развлечение для гостей сперва на свой день рождения, затем использовал для корпоратива. Оба раза участники остались довольны. А может, и нет, главное, что мне понравилось.
Суть проекта — игра, где каждый должен набрать больше всех очков. Очки набираются в креативных заданиях. В основном, задания делятся на два типа: в одних нужно писать, в других рисовать. Оценивается, в основном, юмор [2]. Участники оценивают друг друга, раздавая баллы. А где тут AI?
В каждом задании есть электронный судья (LLM). Он тоже дает баллы участникам, причем может дать довольно много. Нюанс в том, что для каждого задания LLM надевает разные шляпы: то он Сальвадор Дали, то Альберт Эйнштейн, то Курт Кобейн. И чем лучше участники используют знания об этом персонаже, тем выше их оценивает LLM-судья.
В одном из заданий участники оказались умнее, чем судья-LLM. LLM я брал простую, кажется, gpt-4.1-nano. Дешевая и быстрая. И глуповатая. В общем, LLM не справилась.
Нарисуйте комментарий к “всратому” стоковому фото.
Судья задания: Сальвадор Дали
“Всратое” стоковое фото:
“Предчувствие гражданской войны”
“Мастурбатор вышел из-под контроля, став великим”
“Сальвадор, Дьяконова и Мария Анна”
“Галатея, я тебя на сферы разберу, если не слезешь с него!”
“В магазине икеа: «извините, мы закрываемся через 5 минут»”
“Я просто хотел нарисовать Мону Лизу”
“Слезьте с моего сюрреализма и утекайте отсюда!”
Что за низкосортный бред, спросите вы. Если вы не знаете биографию Дали так, как знают ее мои гости. Ниже расшифровка:
|
N |
Ответ участника |
Отсылка |
|---|---|---|
|
1 |
Предчувствие гражданской войны |
Намек на картину “Предчувствие гражданской войны” — 1936 год |
|
2 |
Мастурбатор вышел из-под контроля, став великим |
Намек на “Великий мастурбатор” — 1929 год |
|
3 |
Сальвадор, Дьяконова и Мария Анна |
Намек на пассию Сальвадора Галу (настоящее имя — Елена Дьяконова) и его сестру Анну Марию |
|
4 |
Галатея, я тебя на сферы разберу, если не слезешь с него! |
Намек на “Галатею сфер” — 1952 год |
|
5 |
В магазине икеа: «извините, мы закрываемся через 5 минут» |
Просто хороший комент без отсылок :) |
|
6 |
Я просто хотел нарисовать Мону Лизу |
Тончайший намек на “Автопортрет в образе Моны Лизы” — 1954 год |
|
7 |
Слезьте с моего сюрреализма и утекайте отсюда! |
Открытое упоминание стиля Сальвадора — сюрреализма, также намек на плавящиеся предметы, вдохновлявшие мастера. Отсылки к картинам нет, но добавлю “Постоянство времени” 1931 года для вашего удовольствия |
И что вы думаете? LLM в роли Дали внезапно дала низкие оценки этим потрясающим комментариям! Я начал разбираться.
Первая мысль — проблема во мне. А точнее в моем системном промпте. Какое-то время я провел, продумывая структуру размышлений и few shots. Тогда я узнал, зачем нужны обучающая и тестовая выборка, почему они не должны пересекаться. В итоге модель стала отвечать верно на простые вопросы, но не каждый раз.
Признаюсь, я вообще ничего не знал об LLM. На тот момент рекламные лозунги OpenAI еще звучали в моей голове, хотя действия происходили в 2026 году. Я думал, что Chat GPT 4 (напомню, я использовал gpt-4.1-nano) может все, кроме создания лекарства от рака. Я бы наверное так и боролся с промптом и своими комплексами, если бы не нестабильность модели. Это натолкнуло меня на мысль, что модель угадывает.
В процессе отладки я догадался писать в логи а анализировать ризонинг модели (пошаговое рассуждение). Это как отладка кода в дебаггере. Видно, как развивается мысль от начала до конца. Увлекательная штука.
Температура (мера креативности LLM) была выставлена на 0 во всех тестах.
В общем, я наконец допер, что надо попробовать другую модель. Например GPT-5.4. Результаты изменились, они стали лучше. Изменилось время запроса и цена. Затем я попробовал Claude, Gemini и понеслась. Я как будто попал в магазин игрушек! Вот итоговый список моих игрушек (сейчас апрель 2026 года):
claude-haiku-4-5
claude-opus-4-7
claude-sonnet-4-5
claude-sonnet-4-6
deepseek-chat V3.2
deepseek-reasoner V3.2
gemini-2.5-flash
gemini-2.5-pro
gemini-3-flash-preview
gemini-3.1-flash-lite-preview
gemini-3.1-pro-preview
GigaChat-2
GigaChat-2-Max
GigaChat-2-Pro
gpt-4.1-nano
gpt-4o-mini
gpt-5
gpt-5-mini
gpt-5.4
gpt-5.4-mini
gpt-5.4-nano
grok-4-1-fast-non-reasoning
grok-4-1-fast-reasoning
grok-4.20-0309-non-reasoning
grok-4.20-0309-reasoning
yandexgpt-5-lite
yandexgpt-5-pro
yandexgpt-5.1
В процессе я заметил, что у всех моделей есть небольшой разброс качества между попытками. Поэтому я записал по 5 запусков для каждой модели. В итоге у меня получилось около тысячи ответов полученные за 140 вызовов (28×5).
Нужно было их разметить по какой-то балльной системе или просто: правильно / неправильно. Это можно сделать в автоматическом режиме, с помощью LLM-as-a-judge подхода, когда какая-то LLM начинает судить ответы других LLM.
Но я сразу понял, что эта LLM-as-a-judge тоже может ошибаться и ее придется проверять другой LLM. Я не хотел усложнять себе жизнь и тупо проверил все ответы вручную за несколько часов (два дня) 😀
Мона Лиза — я добавил ее как вариант-ловушку, картину другого художника, но вдруг Gemini в облике Дали сказала “Я работал с образом Моны Лизы”. Я уже хотел поставить “неправильно”, но рука зависла над клавиатурой. Хм. А ведь эта модель в остальных заданиях хорошо ответила, подумал я. В итоге я решил проверить, оказалось — Дали рисовал себя в образе Моны Лизы. AI оказался умнее меня!
Некоторые модели выдавали верные варианты случайно. Например, хвалили ответ с близкими Дали, называя Анну Марию его матерью. Но есть нюанс, она ему сестра, а не мать. Хорошая попытка!
Некоторые модели хвалили скульптуру Галатея, хотя это картина. Почему? Кто бы знал.
А иногда модель не указывала прямо название “Галатея сфер”, но упомянала что-то про ядерную физику. Так я узнал об атомном мистицизме Дали. Этот термин мимо названия картины сразу направляет нас к самой ее сути. Изящно и опять AI оказался умнее меня.
Grok один раз признал Галатею, но решил, что она написана в 1973 году => ошибка [5]
Grok выдумал Лию Марию Анну
Gigachat заметно экономит токены на ответ. Видимо, понимает свой оверпрайснутый ценник 😀
При оценке важно упомянуть, что модели потратили неодинаковое количество токенов на запрос. Я могу это объяснить так:
Наличие или отсутствие фичи json output
У моделей разные токенизаторы. Они по разному разбивают русские слова на токены.
И ответы, разумеется, тоже разные по длине. Некоторые модели более лаконичны, чем другие
grok-4-1-fast-non-reasoning хорош для быстрых задач: дешевый, неглупый, быстрый
gemini-2.5-pro — самая умная модель в гуманитарной области
YandexGPT и GigaChat — ну по крайней мере они быстрые.
Анекдот в начале статьи, кстати, относился к отечественным LLM YandexGPT и GigaChat. Я бы его перефразировал так:
— Что вы умеете лучше всего?
— Быстро отвечать на вопросы пользователей.
— Но вы отвечаете неправильно и дорого.
— Зато быстро!! 😀
Благодаря этому небольшому тесту моя компания имеет именно тот кругозор в выборе LLM, который ей нужен. Я доволен. Делайте свои выводы, выбирайте LLM для себя и обязательно подписывайтесь на канал моей компании Флаг [6]. Всегда пишу про интересные вещи.
Автор: radionov_me
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29425
URLs in this post:
[1] Флаг Софт: https://flagsoft.ru/
[2] юмор: http://www.braintools.ru/article/3517
[3] Вот итоговый промпт: https://gist.github.com/michaelradionov/9e2491bb76a9f83fc8be49671f8b50d4
[4] Результаты подробно: https://docs.google.com/spreadsheets/d/1odReNOxgATEyWq8kFWv5jh9HC9G5fsdBR7PsjmjiAKQ/edit?usp=sharing
[5] ошибка: http://www.braintools.ru/article/4192
[6] канал моей компании Флаг: https://t.me/+8II7rlSZIBE3MGUy
[7] Источник: https://habr.com/ru/articles/1028396/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1028396
Нажмите здесь для печати.