- BrainTools - https://www.braintools.ru -
Дискуссии по поводу тестов AI и того, как их результаты представляются лабораториями AI, выплескиваются на общественное обозрение.
На этой неделе сотрудник OpenAI обвинил [1] компанию Илона Маска xAI, занимающуюся разработкой искусственного интеллекта [2], в публикации вводящих в заблуждение результатов тестов для ее последней модели искусственного интеллекта Grok 3. Один из соучредителей xAI, Игорь Бабушкин, настаивал [3] на том, что компания права.

В сообщении в блоге xAI [4] компания опубликовала график, показывающий производительность Grok 3 на AIME 2025, наборе сложных математических вопросов из недавнего пригласительного экзамена по математике [5]. Некоторые эксперты сомневаются в валидности AIME как эталона ИИ [6]. Тем не менее, AIME 2025 и более ранние версии теста обычно используются для проверки математических способностей модели.
График xAI показал два варианта Grok 3, Grok 3 Reasoning Beta и Grok 3 mini Reasoning, которые превзошли самую эффективную из доступных моделей OpenAI, o3-mini-high [7] , на AIME 2025. Но сотрудники OpenAI в X поспешили указать, что график xAI не включает оценку o3-mini-high на AIME 2025 в «cons@64».
Что такое cons@64, вы можете спросить? Ну, это сокращение от «consensus@64», и по сути это дает модели 64 попытки ответить на каждую проблему в бенчмарке и берет ответы, сгенерированные чаще всего, в качестве окончательных ответов. Как вы можете себе представить, cons@64 имеет тенденцию значительно повышать результаты бенчмарков моделей, и исключение его из графика может создать впечатление [8], что одна модель превосходит другую, хотя на самом деле это не так.
Оценки Grok 3 Reasoning Beta и Grok 3 mini Reasoning для AIME 2025 на уровне «@1» — то есть первая оценка, которую модели получили в бенчмарке — ниже оценки o3-mini-high. Grok 3 Reasoning Beta также немного отстает от модели OpenAI o1, [9] настроенной на «средние» вычисления. Тем не менее, xAI рекламирует Grok 3 [10] как «самый умный ИИ в мире».
Бабушкин утверждал на X [3] , что OpenAI публиковала подобные вводящие в заблуждение графики бенчмарков в прошлом — хотя это были графики, сравнивающие производительность ее собственных моделей. Более нейтральная сторона в дебатах составила более «точный» график, показывающий производительность почти каждой модели при cons@64:

Но как указал [11] исследователь AI Натан Ламберт в посте , возможно, самая важная метрика остается загадкой: вычислительные (и денежные) затраты, необходимые для того, чтобы каждая модель достигла наилучшего результата. Это просто показывает, как мало большинство тестов AI сообщают об ограничениях моделей — и их сильных сторонах.
Источник [12]
Автор: dilnaz_04
Источник [13]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12471
URLs in this post:
[1] обвинил: https://x.com/BorisMPower/status/1892407015038996740
[2] интеллекта: http://www.braintools.ru/article/7605
[3] настаивал: https://x.com/ibab/status/1892418351084732654
[4] сообщении в блоге xAI: https://x.ai/blog/grok-3
[5] математике: http://www.braintools.ru/article/7620
[6] сомневаются в валидности AIME как эталона ИИ: https://x.com/DimitrisPapail/status/1888325914603516214
[7] o3-mini-high: https://techcrunch.com/2025/01/31/openai-launches-o3-mini-its-latest-reasoning-model/
[8] впечатление: http://www.braintools.ru/article/2012
[9] модели OpenAI o1,: https://techcrunch.com/2024/09/12/openai-unveils-a-model-that-can-fact-check-itself/
[10] рекламирует Grok 3: https://x.com/xai/status/1892400129719611567
[11] Но как указал: https://x.com/natolambert/status/1892675458166382687
[12] Источник: https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks/
[13] Источник: https://habr.com/ru/companies/bothub/news/885002/?utm_source=habrahabr&utm_medium=rss&utm_campaign=885002
Нажмите здесь для печати.