Агенты, которые не теряют цель: как научить ИИ решать многошаговые задачи. GUI.. GUI. llm.. GUI. llm. агенты.. GUI. llm. агенты. ИИ.. GUI. llm. агенты. ИИ. искусственный интеллект.. GUI. llm. агенты. ИИ. искусственный интеллект. Машинное обучение.
Агенты, которые не теряют цель: как научить ИИ решать многошаговые задачи - 1

Автоматизация интерфейсов на экране — мечта многих: открыть приложение, найти нужную кнопку, выполнить серию шагов и довести задачу до конца. Сегодня это делают агенты на базе больших языковых моделей, которые умеют видеть скриншоты, рассуждать и действовать. Но когда дело доходит до многошаговых сценариев, прогресс нередко упирается в то, как мы учим такие системы.

Почему агенты застревают в многошаговых задачах

Традиционно есть два пути. Офлайн обучение с подкреплением берёт готовые траектории экспертов: стабильно, дёшево, но модель учится на чужой истории и не видит собственных ошибок. Отсюда переоптимизация отдельных шагов и слабая память о целях. Онлайн обучение выглядит привлекательнее: агент сам взаимодействует со средой, получает обратную связь на уровне эпизода, учится учитывать контекст. Но в GUI-навигации вознаграждения редки и запаздывают, инфраструктура дорогая, а покрыть много приложений и сайтов — отдельная боль.

Авторы UI-S1 предлагают срединный путь — Semi-online RL. Идея проста: имитировать онлайн-динамику, не заходя в реальную среду. Мы остаёмся в офлайне, но заставляем модель проживать собственную историю, а потом аккуратно «склеиваем» её с эталонной траекторией, чтобы не терять полезные хвосты.

Иллюстрации трёх подходов к обучению с подкреплением. Полуонлайн подход имитирует онлайн‑динамику на статических траекториях.

Иллюстрации трёх подходов к обучению с подкреплением. Полуонлайн подход имитирует онлайн‑динамику на статических траекториях.

Как это устроено на практике

Полуонлайн роллаут: по каждой экспертной траектории агент генерирует свои действия и мысли на каждом шаге, опираясь на уже накопленную историю. Если предсказанное действие совпадает с экспертным — продолжаем. Если нет — без помощи дальнейший прогон оборвётся, и мы потеряем информацию о финале эпизода.

Здесь и появляется патч‑модуль. При расхождении он подставляет экспертное действие и, по настройке, синтетическую мысль — например, без размышлений (самый дешёвый режим), с посторонним помощником или от самой текущей политики. История при этом остаётся собственной, а траектория продолжается до конца. В итоге модель учится на «живом» контексте, но не лишается полезных сигналов из эталона.

Поверх этого авторы оптимизируют политику сразу по двум сигналам: пошаговому (точность формата, типа и корректности действия) и эпизодному (успех всей задачи). Вознаграждения распространяются вперёд с дисконтом, чтобы подталкивать модель видеть цель, а не только ближайшую кнопку. Итоговая функция похожа на PPO с клиппингом и мягким KL‑штрафом, плюс контроль за разнообразием преимуществ, чтобы не застрять в узкой политике.

Схема Semi‑online RL: роллаут на офлайн‑данных, патч расхождений и двухуровневая оптимизация с распространением будущей награды.

Схема Semi‑online RL: роллаут на офлайн‑данных, патч расхождений и двухуровневая оптимизация с распространением будущей награды.

Что мерить: SOP вместо гадания по звёздам

Одна из скрытых проблем в GUI‑исследованиях — оценка. Популярные офлайн метрики часто не предсказывают, как агент поведёт себя «вживую». Авторы вводят Semi‑Online Performance (SOP) — дешёвый прокси, который учитывает собственную историю модели и оценивает прогресс и успех по шагам задачи. В экспериментах SOP гораздо лучше коррелирует с реальной онлайн‑производительностью, чем привычные офлайн метрики.

Слева слабая корреляция AC‑High с AndroidWorld. Справа SOP даёт сильную связь (R²≈0.934), при этом UI‑S1‑7B лидирует.

Слева слабая корреляция AC‑High с AndroidWorld. Справа SOP даёт сильную связь (R²≈0.934), при этом UI‑S1‑7B лидирует.

Что получилось на бенчмарках

Модель UI‑S1‑7B достигает уровня лучших открытых 7B систем на динамических бенчмарках. На AndroidWorld прибавка относительно сильной базы — до +12 процентных пунктов; на AITW‑Gen — до +23.8. Итоговая точка 34% на AndroidWorld сравнима с куда более тяжёлыми системами и близка к закрытым решениям. При этом одношаговые навыки не страдают: на AndroidControl‑High и GUI Odyssey наблюдается рост. В отличие от классического офлайн RL, который местами даже проседает, полуонлайн обучение устойчиво подтягивает именно многошаговое поведение.

Что важнее: патчить как

Абляции показывают, что Thought‑free Patch даёт почти максимум качества при минимальных затратах — его и берут в финальной конфигурации. Чем выше порог допущенных патчей, тем больше модель видит поздние шаги и тем лучше использует данные. Оптимальный дисконт для дальних целей оказался средним (γ≈0.5): игнор будущего ухудшает результаты, а слишком длинный горизонт добавляет шума.

Масштабирование данных при разных порогах патча без рассуждений: рост покрытия шагов повышает SOP.

Масштабирование данных при разных порогах патча без рассуждений: рост покрытия шагов повышает SOP.

Кейс: память, контекст и аккуратность

На реальных задачах наподобие «извлечь данные из галереи и создать файл в заметках» полуонлайн‑обученная модель удерживает замысел до конца эпизода, не путает поля и не теряет контекст между приложениями. База и чистый офлайн RL чаще сбиваются или преждевременно останавливаются — как раз из‑за рассогласования истории и финальной цели.

Многошаговая задача: просмотр чека в галерее и перенос данных в текстовый файл в формате CSV.
Многошаговая задача: просмотр чека в галерее и перенос данных в текстовый файл в формате CSV.

Почему это важно и что дальше

Полуонлайн парадигма соединяет простоту офлайна и целевую направленность онлайна. Мы получаем обучение, которое масштабируется по данным, не требует дорогих инфраструктурных циклов, но при этом раскрывает именно многошаговые способности агента. Плюс — практичная метрика SOP, позволяющая быстро ранжировать модели перед реальными запусками.

Интересно расширить патч мыслей от самой политики, но без сдвига распределений; научиться более умно выбирать, где патчить, а где позволять агенту ошибаться; добавить лёгкую модель мира для аппроксимации переходов между экранами без опоры на эксперта. Всё это может ещё сильнее удешевить обучение и улучшить перенос на новые приложения.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник

Rambler's Top100