ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты

Думали, что «Pokemon» — сложный тест для ИИ ^[1]? Одна группа исследователей утверждает, что Super Mario Bros. ещё сложнее.

Лаборатория искусственного интеллекта ^[2] Hao, исследовательская организация Калифорнийского университета в Сан-Диего, в пятницу внедрила ИИ в игры Super Mario Bros. Claude 3.7 ^[3] от Anthropic показал наилучшие результаты, за ним следует Claude 3.5. Gemini 1.5 Pro ^[4] от Google и GPT-4o ^[5] от OpenAI показали худшие результаты.

Это была не совсем та же Super Mario Bros., что и оригинальная версия 1985 года. Игра запускалась в эмуляторе и была интегрирована с фреймворком GamingAgent, чтобы ИИ мог управлять Марио.

ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты - 2

Игровой агент, разработанный компанией Hao, передавал ИИ базовые инструкции, например: «Если рядом препятствие или враг, двигайтесь/прыгайте влево, чтобы увернуться», и скриншоты из игры. Затем ИИ генерировал входные данные в виде кода Python для управления Марио.

Тем не менее, Нао говорит, что игра заставила каждую модель «научиться» планировать сложные манёвры и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели, основанные на рассуждениях, такие как o1 ^[6] от OpenAI, которые шаг за шагом «размышляют» над проблемами, чтобы найти решение, показали худшие результаты, чем модели, не основанные на рассуждениях, несмотря на то, что в целом они были сильнее в большинстве тестов.

По словам исследователей, одна из основных причин, по которой модели рассуждений испытывают трудности при игре в реальном времени, заключается в том, что им требуется некоторое время, обычно несколько секунд, для принятия решения о действиях. В Super Mario Bros. время решает всё. Секунда может означать разницу между безопасным прыжком и падением и смертью.

Игры десятилетиями использовались для тестирования ИИ. Но некоторые эксперты поставили под сомнение целесообразность ^[7] проведения параллелей между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, абстрактны и относительно просты, и они предоставляют теоретически бесконечный объём данных для обучения ^[8] ИИ.

Недавние впечатляющие результаты в играх указывают на то, что Андрей Карпати, учёный-исследователь и один из основателей OpenAI, назвал «кризисом оценки».

«На самом деле я не знаю, на какие показатели ИИ сейчас стоит обращать внимание ^[9], — написал он в посте на X ^[10]. — Если коротко, то я не знаю, насколько хороши эти модели прямо сейчас».

По крайней мере, мы можем посмотреть, как ИИ играет в Марио.

Источник ^[11]

Автор: mefdayy

Источник ^[12]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12784

URLs in this post:

[1] «Pokemon» — сложный тест для ИИ: https://techcrunch.com/2025/02/25/anthropics-claude-ai-is-playing-pokemon-on-twitch-slowly/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] Claude 3.7: https://techcrunch.com/2025/02/24/anthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want/

[4] Gemini 1.5 Pro: https://techcrunch.com/2024/04/09/googles-gemini-pro-1-5-enters-public-preview-on-vertex-ai/

[5] GPT-4o: https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/

[6] o1: https://techcrunch.com/2024/12/05/openais-o1-model-sure-tries-to-deceive-humans-a-lot/

[7] некоторые эксперты поставили под сомнение целесообразность: https://venturebeat.com/uncategorized/why-games-may-not-be-the-best-benchmark-for-ai/

[8] обучения: http://www.braintools.ru/article/5125

[9] внимание: http://www.braintools.ru/article/7595

[10] посте на X: https://x.com/karpathy/status/1896266683301659068

[11] Источник: https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/

[12] Источник: https://habr.com/ru/companies/bothub/news/887754/?utm_source=habrahabr&utm_medium=rss&utm_campaign=887754

Нажмите здесь для печати.