Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами. ClockBench.. ClockBench. искусственный интеллект.. ClockBench. искусственный интеллект. искуственный интеллект.. ClockBench. искусственный интеллект. искуственный интеллект. Машинное обучение.. ClockBench. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети.. ClockBench. искусственный интеллект. искуственный интеллект. Машинное обучение. нейросети. часы.

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами - 1

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.

Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:

Модель	Результат	Разработчик
Gemini 2.5 Pro	13,3%	Google
o3 Pro	13,3%	OpenAI
Gemini 2.5 Flash	10,5%	Google
o3 High	9,1%	OpenAI
GPT-5 High	8,4%	OpenAI
GPT-5 Mini	5,6%	OpenAI
Claude Opus 4.1	5,6%	Anthropic
Qwen 2.5-VL-72B	4,9%	Alibaba
Claude Sonnet 4	4,2%	Anthropic
Mistral Medium 3.1	2,8%	Mistral
GPT-4o	2,1%	OpenAI
GPT-5 Nano	2,1%	OpenAI
Grok 4	0,7%	xAI

На GitHub авторы бенчмарка опубликовали 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.

Автор: daniilshat

Источник

Запись добавлена: 25.09.2025 в 14:31
Оставлено в

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов