- BrainTools - https://www.braintools.ru -
Исследователи выпустили [1] визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения [2] пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.
Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:
|
Модель |
Результат |
Разработчик |
|
Gemini 2.5 Pro |
13,3% |
|
|
o3 Pro |
13,3% |
OpenAI |
|
Gemini 2.5 Flash |
10,5% |
|
|
o3 High |
9,1% |
OpenAI |
|
GPT-5 High |
8,4% |
OpenAI |
|
GPT-5 Mini |
5,6% |
OpenAI |
|
Claude Opus 4.1 |
5,6% |
Anthropic |
|
Qwen 2.5-VL-72B |
4,9% |
Alibaba |
|
Claude Sonnet 4 |
4,2% |
Anthropic |
|
Mistral Medium 3.1 |
2,8% |
Mistral |
|
GPT-4o |
2,1% |
OpenAI |
|
GPT-5 Nano |
2,1% |
OpenAI |
|
Grok 4 |
0,7% |
xAI |
На GitHub авторы бенчмарка опубликовали [3] 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.
Автор: daniilshat
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19938
URLs in this post:
[1] выпустили: https://clockbench.ai/
[2] обучения: http://www.braintools.ru/article/5125
[3] опубликовали: https://github.com/aleksafar/clockbench
[4] Источник: https://habr.com/ru/news/950652/?utm_source=habrahabr&utm_medium=rss&utm_campaign=950652
Нажмите здесь для печати.