ClockBench.

Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

продолжить чтение

Rambler's Top100