Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red

Компания Anthropic использовала Pokémon для тестирования своей новейшей модели искусственного интеллекта ^[1].

В сообщении ^[2] блога, опубликованном в понедельник, компания Anthropic сообщила, что протестировала свою последнюю модель Claude 3.7 Sonnet ^[3] на классической версии Game Boy Pokémon Red. Компания оснастила модель базовой памятью ^[4], возможностью ввода пикселей на экране и вызовами функций для нажатия кнопок и перемещения по экрану, что позволяет играть в Pokémon непрерывно.

Уникальной особенностью Claude 3.7 Sonnet является его способность к «расширенному мышлению». Как и o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может «рассуждать» о сложных задачах, применяя больше вычислений и тратя больше времени.

По-видимому, это пригодилось в Pokémon Red.

В отличие от предыдущей версии, Claude 3.7 Sonnet успешно преодолел испытания и победил трёх лидеров спортзалов покемонов, получив их значки.

Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red - 2

Теперь неясно, сколько вычислений потребовалось модели Claude 3.7 Sonnet, чтобы достичь этих результатов, и сколько времени это заняло. Компания Anthropic сообщила только, что модель выполнила 35 000 действий, чтобы достичь последнего уровня, Surge.

Наверняка пройдет совсем немного времени, прежде чем какой-нибудь предприимчивый разработчик узнает об этом.

Pokémon Red — это скорее игрушка, чем что-то серьёзное. Однако существует долгая история ^[5] использования игр для тестирования ИИ. Только за последние несколько месяцев появилось несколько новых приложений и платформ для тестирования игровых способностей моделей в играх от Street Fighter ^[6] до Pictionary ^[7].

Источник ^[8]

Автор: mefdayy

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12539

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] сообщении: https://www.anthropic.com/news/claude-3-7-sonnet

[3] Claude 3.7 Sonnet: https://techcrunch.com/2025/02/24/anthropic-launches-a-new-ai-model-that-thinks-as-long-as-you-want/

[4] памятью: http://www.braintools.ru/article/4140

[5] существует долгая история: https://venturebeat.com/uncategorized/why-games-may-not-be-the-best-benchmark-for-ai/

[6] Street Fighter: https://github.com/OpenGenerativeAI/llm-colosseum

[7] Pictionary: https://techcrunch.com/2024/11/05/people-are-using-games-like-pictionary-to-benchmark-ai-now/

[8] Источник: https://techcrunch.com/2025/02/24/anthropic-used-pokemon-to-benchmark-its-newest-ai-model/

[9] Источник: https://habr.com/ru/companies/bothub/news/885496/?utm_source=habrahabr&utm_medium=rss&utm_campaign=885496

Нажмите здесь для печати.