Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами. ClockBench.. ClockBench. искусственный интеллект.. ClockBench. искусственный интеллект. искуственный интеллект.. ClockBench. искусственный интеллект. искуственный интеллект. Машинное обучение.. ClockBench. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети.. ClockBench. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети. часы.

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами - 1

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.

Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:

Модель 

Результат

Разработчик

Gemini 2.5 Pro

13,3%

Google

o3 Pro

13,3%

OpenAI

Gemini 2.5 Flash

10,5%

Google

o3 High

9,1%

OpenAI

GPT-5 High

8,4%

OpenAI

GPT-5 Mini

5,6%

OpenAI

Claude Opus 4.1

5,6%

Anthropic

Qwen 2.5-VL-72B

4,9%

Alibaba

Claude Sonnet 4

4,2%

Anthropic

Mistral Medium 3.1

2,8%

Mistral

GPT-4o

2,1%

OpenAI

GPT-5 Nano

2,1%

OpenAI

Grok 4

0,7%

xAI

На GitHub авторы бенчмарка опубликовали 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.

Автор: daniilshat

Источник

Rambler's Top100