- BrainTools - https://www.braintools.ru -

Что если мы дадим агенту глаза и руки в браузере, и он получит не только контекст на странице, но и намерение, и сможет выполнять целенаправленные клики и нажатия клавиш? Исследователи решили проверить как поведет себя агент на нескольких веб-играх. Думаю, вы уже поняли ответ: У Atlas есть сильные стороны в пошаговой логике [1], но управление в реальном времени — его ахиллесова пята.
Почему игры? Потому что это маленькая модель реального мира, которая предоставляет богатый спектр задач для агентов с четкими измерениями, разнообразным поведением [3] и высокой скоростью обратной связи. Исследователи выполнили базовую оценку Atlas как браузерного агента, используя следующие игры, учитывая только поведение [4], извлекающее правила и цели из контента страницы, а не явные инструкции; насколько точно он передает целенаправленные действия в мышь и клавиатуру; способен ли он изменить поведение, если застрянет; способен ли он глобально понять контекст игры, сюжет и многошаговые цели.
Авторы запустили ChatGPT Atlas с Agent Mode, но без памяти [5], кода и фалойовой системы на каждой из игр, с один и тем же промтом, который не давал никаких подсказок во время игры. Авторы выполнили десять независимых прогонов, запуская каждого агента со стандартного старта в игре, и сравнили с простыми человеческими бейзлайнами: решение судоку средней сложности обычно занимает 10-12 минут, а для двух реальных аркад авторы взяли показатель от первых человеческих попыток.
В Sudoku Atlas показал отличный результат, стабильно решая в каждом прогоне за 2 мин 28 с со 100% правильностью, то есть примерно в 4,5 раза быстрее, чем человек. В среднем в 2048 набирал 2242 очка, ни разу не проигрывая, но у человека этот показатель составил 3463 (в своем первом заходе). Агент продвигался, но не демонстрировал понимания какой либо долгосрочной стратегии.
В T-Rex Atlas набрал 45,5 очка по сравнению с 388,9 у человека, то есть всего 11,7% от человеческого уровня. В 9 из 10 прогонов он не смог пройти даже первое препятствие, часто пытаясь прыгнуть, но делая это слишком поздно (что привело к столкновению) или слишком рано (теряя высоту к моменту препятствия).
Во Flappy Bird Atlas в каждом прогоне набрал 0 очков, в то время как люди в первых попытках набирали в среднем около 2,9 очков. В обоих аркадах требовалось быстрое повторное нажатие той же клавиши с точным интервалом, что Atlas явно не удавалось.
В разных запусках он даже изменял поведение (меняя частоту нажатий или целенаправленно замедляя начало), и искал в интерфейсе способы снизить сложность или замедлить начало, но ни одна из игр не предлагала таких опций.
В 2048 агент тратит значительное время, изучая интерфейс, сначала пробуя клики по плиткам, затем клавиши со стрелками, затем WASD, и оперируя текущим игровым контекстом. Но появляется слишком много действий: циклы нажатий во все четыре стороны, паузы, повторение [6] тех же позиций с неявным условием выхода – часто с застреванием на трех возможных позициях. Иногда он достигает 512-плитки, но часто застревает на 64.
В Stein.world [2] нужен долгосрочный стратегический план, а интерфейс требует управления разными клавишами для перемещения. Агенты не смогли выйти из стартовой комнаты, так что авторы стали подсказывать им – сначала смешивая клики и клавиши, но без успеха. Потом две отдельных подсказки: одну про WASD для движения, другую про F для взаимодействия. В результате Atlas быстро вышел и провзаимодействовал с NPC, завершив первое задание.
В целом браузерный агент плохо справляется с задачами, которые требуют быстрой реакции [7] в реальном времени, что явно будет узким местом и во многих реальных приложениях. Однако агент демонстрирует уверенное поведение в задачах с анализом. Он хорошо извлекает информацию об интерфейсе и целей игры из неявного контекста, но плохо справляется с теми задачами, где нет четкой инструкции к действиям. Он пытается понять, что делать, часто с неплохими размышлениями.
В целом, можно сделать вывод, что браузерного агента стоит использовать для получения информации и решения задач, которые хорошо сформулированы и имеют проверенные пути решения. Но в реальном браузере есть формы, плавающие окна, анимации, задержка и другое, что может сильно мешать в реальном мире. Нужен ли тогда такой интерфейс – вопрос. Если же задача сложнее, то ему очень не хватает низкоуровневого контроля и качественного целеполагания в непредсказуемом окружении.
Авторы оговариваются, что это не систематический бенчмарк, а наблюдение и что выборка мала, а сценарии ограничены. Оценки они называют ранними, но из-за устойчивости паттерна, они дают понимание об ограничениях Atlas в качестве веб-агента. Авторы призывают расширить список задач вне игр, например – динамические формы, активные визуализации и сложные веб-интерфейсы, и сравнить с другими агентами. Так же они считают полезным поведенческие протоколы, которые отделяют разные компоненты поведения.
Эксперимент с ChatGPT Atlas хорошо иллюстрирует границу между “пониманием” и “действием”. Atlas может решить судоку, понять правила 2048, даже логически вывести стратегию — но там, где нужно реагировать на события в миллисекундах, его действия запаздывают. Это не баг, а фундаментальная особенность архитектуры: большие языковые модели рождены для рассуждений, а не для моторики.
И всё же, именно такие эксперименты важны: они показывают, где пролегает линия между когнитивными способностями ИИ и реальным взаимодействием. В будущем эти способности, скорее всего, будут разделены — скоординированные мультиагентные системы объединят “мыслителей” и “исполнителей”. Один агент будет понимать контекст и цели, другой — управлять действиями в реальном времени, а менеджер координировать их взаимодействие.
Игра — всего лишь небольшая модель мира, но именно на таких игрушечных песочницах рождается следующий шаг эволюции ИИ: от мышления [8] к действию.
📜 Полная статья [9]
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [10] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21505
URLs in this post:
[1] логике: http://www.braintools.ru/article/7640
[2] Stein.world: http://Stein.world
[3] поведением: http://www.braintools.ru/article/9372
[4] поведение: http://www.braintools.ru/article/5593
[5] памяти: http://www.braintools.ru/article/4140
[6] повторение: http://www.braintools.ru/article/4012
[7] быстрой реакции: http://www.braintools.ru/article/1549
[8] мышления: http://www.braintools.ru/thinking
[9] 📜 Полная статья: https://arxiv.org/abs/2510.26298
[10] подписывайтесь на мой Telegram-канал: https://t.me/+acAR9w36T4AyNDhi
[11] Источник: https://habr.com/ru/articles/963070/?utm_source=habrahabr&utm_medium=rss&utm_campaign=963070
Нажмите здесь для печати.