- BrainTools - https://www.braintools.ru -

Google показала Gemini 2.5 Computer Use: ИИ-агента, который управляет интерфейсами

Google DeepMind представила [1] новую версию модели Gemini 2.5 Computer Use — режим, в котором искусственный интеллект [2] способен действовать прямо в интерфейсе сайта или приложения. Доступ к новой функции уже открыт разработчикам через Gemini API и облачную платформу Vertex AI, а для всех желающих Google запустила публичную демонстрацию на Browserbase [3].

Работа агента строится по циклу. ИИ получает скриншот экрана, историю предыдущих шагов и задачу, формулирует действие (например, «ввести текст в поле поиска»), после чего клиент исполняет его и делает новый скриншот. Затем цикл повторяется, пока задача не будет выполнена. За это отвечает новый инструмент computer_use, доступный в Gemini API. Сейчас агент заточен под браузеры — в Google специально подмечают, что для управления на уровне настольной ОС он пока не оптимизирован.

В демонстрациях Gemini 2.5 Computer Use справляется с заполнением форм, выбором пунктов в выпадающих списках, авторизацией на сайтах, переносом данных между сервисами и организацией элементов на досках. Google подчеркивает, что агент работает с реальными веб-страницами, включая страницы за логином, что открывает путь к автоматизации корпоративных интерфейсов и типовой офисной рутины.

Пока Computer Use находится в стадии публичного превью. Google предупреждает, что фокус смещен на стабильную работу в браузере и безопасность: каждое действие модели проходит внешнюю проверку, отдельные действия требуют явного подтверждения пользователя (например, покупки), а опасные сценарии (обход капчи, вмешательство в устройства) блокируются. Планы дальнейшего развития новинки пока не раскрываются.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть [4]“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20413

URLs in this post:

[1] представила: https://blog.google/technology/google-deepmind/gemini-computer-use-model/

[2] интеллект: http://www.braintools.ru/article/7605

[3] Browserbase: https://gemini.browserbase.com/

[4] сбежавшая нейросеть: https://t.me/ai_exee

[5] Источник: https://habr.com/ru/news/954406/?utm_source=habrahabr&utm_medium=rss&utm_campaign=954406

www.BrainTools.ru

Rambler's Top100