- BrainTools - https://www.braintools.ru -
Думали, что «Pokemon» — сложный тест для ИИ [1]? Одна группа исследователей утверждает, что Super Mario Bros. ещё сложнее.

Лаборатория искусственного интеллекта [2] Hao, исследовательская организация Калифорнийского университета в Сан-Диего, в пятницу внедрила ИИ в игры Super Mario Bros. Claude 3.7 [3] от Anthropic показал наилучшие результаты, за ним следует Claude 3.5. Gemini 1.5 Pro [4] от Google и GPT-4o [5] от OpenAI показали худшие результаты.
Это была не совсем та же Super Mario Bros., что и оригинальная версия 1985 года. Игра запускалась в эмуляторе и была интегрирована с фреймворком GamingAgent, чтобы ИИ мог управлять Марио.

Игровой агент, разработанный компанией Hao, передавал ИИ базовые инструкции, например: «Если рядом препятствие или враг, двигайтесь/прыгайте влево, чтобы увернуться», и скриншоты из игры. Затем ИИ генерировал входные данные в виде кода Python для управления Марио.
Тем не менее, Нао говорит, что игра заставила каждую модель «научиться» планировать сложные манёвры и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели, основанные на рассуждениях, такие как o1 [6] от OpenAI, которые шаг за шагом «размышляют» над проблемами, чтобы найти решение, показали худшие результаты, чем модели, не основанные на рассуждениях, несмотря на то, что в целом они были сильнее в большинстве тестов.
По словам исследователей, одна из основных причин, по которой модели рассуждений испытывают трудности при игре в реальном времени, заключается в том, что им требуется некоторое время, обычно несколько секунд, для принятия решения о действиях. В Super Mario Bros. время решает всё. Секунда может означать разницу между безопасным прыжком и падением и смертью.
Игры десятилетиями использовались для тестирования ИИ. Но некоторые эксперты поставили под сомнение целесообразность [7] проведения параллелей между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, абстрактны и относительно просты, и они предоставляют теоретически бесконечный объём данных для обучения [8] ИИ.
Недавние впечатляющие результаты в играх указывают на то, что Андрей Карпати, учёный-исследователь и один из основателей OpenAI, назвал «кризисом оценки».
«На самом деле я не знаю, на какие показатели ИИ сейчас стоит обращать внимание [9], — написал он в посте на X [10]. — Если коротко, то я не знаю, насколько хороши эти модели прямо сейчас».
По крайней мере, мы можем посмотреть, как ИИ играет в Марио.
Источник [11]
Автор: mefdayy
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12784
URLs in this post:
[1] «Pokemon» — сложный тест для ИИ: https://techcrunch.com/2025/02/25/anthropics-claude-ai-is-playing-pokemon-on-twitch-slowly/
[2] интеллекта: http://www.braintools.ru/article/7605
[3] Claude 3.7: https://techcrunch.com/2025/02/24/anthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want/
[4] Gemini 1.5 Pro: https://techcrunch.com/2024/04/09/googles-gemini-pro-1-5-enters-public-preview-on-vertex-ai/
[5] GPT-4o: https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/
[6] o1: https://techcrunch.com/2024/12/05/openais-o1-model-sure-tries-to-deceive-humans-a-lot/
[7] некоторые эксперты поставили под сомнение целесообразность: https://venturebeat.com/uncategorized/why-games-may-not-be-the-best-benchmark-for-ai/
[8] обучения: http://www.braintools.ru/article/5125
[9] внимание: http://www.braintools.ru/article/7595
[10] посте на X: https://x.com/karpathy/status/1896266683301659068
[11] Источник: https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/
[12] Источник: https://habr.com/ru/companies/bothub/news/887754/?utm_source=habrahabr&utm_medium=rss&utm_campaign=887754
Нажмите здесь для печати.