- BrainTools - https://www.braintools.ru -
Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде. Результаты выявили некоторые явные различия как в производительности, так и в стоимости.

Команда из лаборатории искусственного интеллекта [1] Hao в Калифорнийском университете в Сан-Диего оценила современные языковые модели с помощью игры «Phoenix Wright: Ace Attorney», в которой игрокам нужно собирать улики, выявлять противоречия и раскрывать правду, скрывающуюся за ложью.
По мнению Hao AI Lab, игра Ace Attorney особенно хорошо подходит для этого теста, потому что она требует от игроков собирать доказательства, выявлять противоречия и находить правду за ложью. Моделям пришлось анализировать длинные диалоги, выявлять несоответствия во время допроса и выбирать подходящие доказательства, чтобы оспорить показания свидетелей.
Эксперимент был отчасти вдохновлён соучредителем OpenAI Ильёй Суцкевером, который однажды сравнил предсказание следующего слова с пониманием детективной истории. Недавно Суцкевер получил дополнительное финансирование в размере нескольких миллиардов евро для нового проекта в области ИИ [2].
Исследователи протестировали несколько лучших мультимодальных моделей и моделей логического мышления [3], в том числе OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking и Llama 4 Maverick. И o1, и Gemini 2.5 Pro достигли 4-го уровня, но o1 показал лучшие результаты в самых сложных случаях.
Тест выходит за рамки простого анализа текста или изображений. Как объясняет команда, моделям приходится анализировать длинные контексты и выявлять в них противоречия, точно понимать визуальную информацию и принимать стратегические решения в ходе игры.
«Игровой дизайн выводит ИИ за рамки чисто текстовых и визуальных задач, требуя от него преобразования понимания в контекстно-зависимые действия. Здесь сложнее переобучиться, потому что для успеха требуется анализ контекстно-зависимого пространства действий, а не просто запоминание», — объясняют исследователи.
Переобучение происходит, когда языковая модель запоминает обучающие данные, включая все случайности [4] и ошибки [5], и плохо справляется с новыми, незнакомыми примерами. Эта проблема также возникает с моделями рассуждений, оптимизированными для математических задач и задач с кодом [6]. Эти модели могут стать более эффективными в поиске правильных решений, но они также сокращают разнообразие рассматриваемых вариантов.
Gemini 2.5 Pro оказался значительно более экономичным, чем другие протестированные модели. Лаборатория Hao AI сообщает, что он в шесть-пятнадцать раз дешевле, чем o1, в зависимости от ситуации. В одном особенно длительном сценарии уровня 2 затраты на o1 превысили 45,75 долларов, в то время как Gemini 2.5 Pro [7] выполнил задачу за 7,89 доллара.
Gemini 2.5 Pro также превзошёл GPT-4.1, который не оптимизирован специально для логических рассуждений, по стоимости: 1,25 доллара за миллион входных токенов по сравнению с 2 долларами за GPT-4.1. Однако исследователи отмечают, что фактическая стоимость может быть немного выше из-за требований к обработке изображений.
С февраля команда проводит [8] тестирование языковых моделей в ряде игр, включая Candy Crush, 2048, Sokoban, Tetris и Super Mario. Из всех протестированных на данный момент игр Ace Attorney, вероятно, является игрой с самой сложной механикой, когда дело касается рассуждений.
Источник [9]
Автор: mefdayy
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14676
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] дополнительное финансирование в размере нескольких миллиардов евро для нового проекта в области ИИ: https://the-decoder.com/openai-co-founder-sutskever-raises-2-billion-for-ai-startup-with-no-product/
[3] мышления: http://www.braintools.ru/thinking
[4] случайности: http://www.braintools.ru/article/6560
[5] ошибки: http://www.braintools.ru/article/4192
[6] Эта проблема также возникает с моделями рассуждений, оптимизированными для математических задач и задач с кодом: https://the-decoder.com/so-called-reasoning-models-are-more-efficient-but-not-more-capable-than-regular-llms-study-finds/
[7] Gemini 2.5 Pro: https://the-decoder.com/gemini-2-5-pro-google-has-finally-caught-up/
[8] проводит: https://huggingface.co/spaces/lmgame/game_arena_bench
[9] Источник: https://the-decoder.com/researchers-use-popular-ace-attorney-video-game-to-test-how-well-ai-can-actually-reason/
[10] Источник: https://habr.com/ru/companies/bothub/news/904828/?utm_source=habrahabr&utm_medium=rss&utm_campaign=904828
Нажмите здесь для печати.