Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Исследователи выпустили ^[1] визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения ^[2] пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.

Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:

Модель	Результат	Разработчик
Gemini 2.5 Pro	13,3%	Google
o3 Pro	13,3%	OpenAI
Gemini 2.5 Flash	10,5%	Google
o3 High	9,1%	OpenAI
GPT-5 High	8,4%	OpenAI
GPT-5 Mini	5,6%	OpenAI
Claude Opus 4.1	5,6%	Anthropic
Qwen 2.5-VL-72B	4,9%	Alibaba
Claude Sonnet 4	4,2%	Anthropic
Mistral Medium 3.1	2,8%	Mistral
GPT-4o	2,1%	OpenAI
GPT-5 Nano	2,1%	OpenAI
Grok 4	0,7%	xAI

На GitHub авторы бенчмарка опубликовали ^[3] 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.

Автор: daniilshat

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19938

URLs in this post:

[1] выпустили: https://clockbench.ai/

[2] обучения: http://www.braintools.ru/article/5125

[3] опубликовали: https://github.com/aleksafar/clockbench

[4] Источник: https://habr.com/ru/news/950652/?utm_source=habrahabr&utm_medium=rss&utm_campaign=950652

Нажмите здесь для печати.