Simular AI представила продвинутый агент для работы с компьютером. ai.. ai. Блог компании BotHub.. ai. Блог компании BotHub. Будущее здесь.. ai. Блог компании BotHub. Будущее здесь. ИИ.. ai. Блог компании BotHub. Будущее здесь. ИИ. ии-агенты.. ai. Блог компании BotHub. Будущее здесь. ИИ. ии-агенты. искусственный интеллект.. ai. Блог компании BotHub. Будущее здесь. ИИ. ии-агенты. искусственный интеллект. Машинное обучение.. ai. Блог компании BotHub. Будущее здесь. ИИ. ии-агенты. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. Блог компании BotHub. Будущее здесь. ИИ. ии-агенты. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. Блог компании BotHub. Будущее здесь. ИИ. ии-агенты. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Simular AI представила продвинутый агент для работы с компьютером - 1

Simular AI представила Agent S3 — новое поколение компьютерных агентов, которые выполняют задачи на уровне, близком к человеческому. Если первая версия Agent S набрала лишь 20,6 % на бенчмарке OSWorld, а Agent S2 поднял планку до 48,8 %, то Agent S3 достиг уже 69,9 %, вплотную приблизившись к 72 % — уровню человека.

Основная инновация Agent S3 — метод Behavior Best-of-N (bBoN). Вместо одной попытки агент запускает несколько параллельных сценариев, а затем специальный судья выбирает лучший результат. При этом каждое действие агента переводится в краткий поведенческий нарратив — факты о том, что реально изменилось на экране. Это позволяет сравнивать попытки не по сырому выводу, а по реальным шагам, что повышает точность выбора и делает работу системы прозрачной.

Simular AI представила продвинутый агент для работы с компьютером - 2

Уже одно это решение позволило поднять точность Agent S3 с 62,6 % до 69,9 % на OSWorld. На других платформах прирост тоже ощутим: с 50,2 % до 56,6 % на WindowsAgentArena и с 68,1 % до 71,6 % на AndroidWorld. Такой подход помогает справляться с главной проблемой компьютерных агентов — высокой вариативностью при длинных сценариях, когда малейшая ошибка может сорвать всё выполнение.

Simular AI представила продвинутый агент для работы с компьютером - 3

Кроме масштабирования через bBoN, Agent S3 упростили и внутри. Исчезла громоздкая иерархия менеджер–исполнитель, появилась встроенная кодогенерация, благодаря чему агент может комбинировать кодовые и GUI-задачи, повышая разнообразие решений и их надёжность. Эти улучшения уже в одиночном запуске подняли результат до 62,6 %.

Simular AI представила продвинутый агент для работы с компьютером - 4

Разработчики также проверили, насколько судья соответствует человеческим оценкам. Выяснилось, что при повторной проверке он оказался прав в 92,8 % случаев, а значит, реальная точность Agent S3 приближается к 76,3 %. Всё это делает Agent S3 первым массово масштабируемым агентом для компьютерных задач.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Автор: cognitronn

Источник

Rambler's Top100