
SIMA 2 — это не просто обновление прошлой версии. Это качественно новый агент от Google DeepMind, который демонстрирует, как крупные языковые модели могут научиться не только рассуждать о мире, но и активно действовать в нем. Цель – создать агента, который понимает сложные инструкции на естественном языке и выполняет их в динамичных 3D-мирах, имитируя действия человека. В качестве платформы для обучения и тестирования используются коммерческие игры (например, No Man’s Sky, Valheim) и специализированные исследовательские симуляторы.
В основе SIMA 2 лежит модель Gemini, дообученная на данных из виртуальных симуляций и игр. Ключевое отличие от предыдущего поколения (SIMA 1) — переход от реактивного следования инструкциям к осмысленному поведению. Агент теперь способен поддерживать диалог, строить многошаговые планы и рассуждать о своих действиях, что приближает его к понятию «агентности».
Цифры говорят сами за себя. На наборе обучающих сред (игры вроде Valheim и No Man’s Sky) SIMA 2 демонстрирует почти двукратное превосходство над предшественником, приближая успешность выполнения задач к уровню человека. Его результат в 86% на автоматических оценках и 76% на человеческих практически сравнивается с уровнем человека-оператора (88% и 78% соответственно), которому, в отличие от агента, не ограничивали время на выполнение.
Этот рост не равномерен по всем типам задач. В навыках, требующих понимания контекста и работы с интерфейсами (взаимодействие, управление объектами), агент практически сравнялся с человеком. Однако в задачах на тонкую моторику и быстрое принятие решений (боевые столкновения) разрыв остается. Это отражает фундаментальную сложность интеграции высокоуровневого планирования с низкоуровневым контролем.
Настоящая проверка для любого универсального агента — работа в абсолютно новых условиях. Здесь разница между версиями становится особенно очевидной. SIMA 1 в новых средах (например, в игре ASKA) часто терялся, демонстрируя хрупкость. SIMA 2, напротив, показывает стабильный рост результативности, что доказывает его способность переносить принципы, а не заученные паттерны.
Эта способность к обобщению выходит за рамки видеоигр. SIMA 2 успешно выполняет навигационные задачи в фотореалистичных мирах, сгенерированных Genie 3, с которыми он никогда не сталкивался во время обучения.
Самое значимое отличие SIMA 2 — это заложенная в него возможность автономного улучшения. Система использует модель Gemini в двух ролях: как «постановщика задач», генерирующего новые вызовы, и как «судию», оценивающего успешность. Это создает петлю самообучения.
На практике в игре ASKA успешность SIMA 1 составляет лишь 23%, в то время как SIMA 2 достигает 36%.В подмножестве задач Minecraft (MineDojo) прогресс еще заметнее: с 4% у SIMA 1 до 15% у SIMA 2.
Этот рост в ~1.5-3.7 раза показывает, что новая версия способна переносить принципы, а не просто заученные паттерны. Она корректно идентифицирует новые объекты (например, костер в другом визуальном стиле) и взаимодействует с незнакомыми меню.
Ключевые отличия:
1. Гибридный подход. Объединение мощной мультимодальной модели-основы (Gemini) с данными воплощенного взаимодействия — это эффективный путь к созданию универсальных агентов. доказательство – рост успешности с ~40% до ~80% на обучающих средах
2. Обобщение. Агент перестал быть «хрупким». Его способность показывать результат в 15-36% задач в абсолютно новых мирах против 4-23% у предшественника доказывает, что он извлекает фундаментальные принципы взаимодействия, а не запоминает сценарии.
3. Самообучение. Демонстрация того, что агент способен не только применять, но и автономно формировать и совершенствовать навыки в ранее незнакомой среде, знаменует смену парадигмы в разработке ИИ.
SIMA 2 — это не просто успешный эксперимент. Это рабочий прототип новой архитектуры ИИ, в которой мощь фундаментальных моделей обретает действие через воплощение. Полученные результаты — двукратный рост производительности, 15-36% успешность в абсолютно незнакомых мирах и, главное, доказанная способность к автономному навыкообразованию — задают конкретные, измеримые ориентиры для всего направления воплощённого интеллекта.
Источник: Cornell University
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Автор: Idilara25


