ИИ-агенты против живых юзеров: кто лучше тестирует интерфейсы?. llm.. llm. ui.. llm. ui. агенты.. llm. ui. агенты. ИИ.. llm. ui. агенты. ИИ. искусственный интеллект.. llm. ui. агенты. ИИ. искусственный интеллект. Машинное обучение.. llm. ui. агенты. ИИ. искусственный интеллект. Машинное обучение. тестирование.
ИИ-агенты против живых юзеров: кто лучше тестирует интерфейсы? - 1

Представьте: вы хотите протестировать новую кнопку «Купить», но для статистически значимых выводов нужны тысячи пользователей и недели анализа. А теперь забудьте об этом. В статье «AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents» авторы рассказывают, как заменить живую аудиторию автономными ИИ-пользователями на базе LLM – и получать точные A/B‑результаты за считанные часы и копейки бюджета. Давайте узнаем, как это работает.

Почему традиционное A/B-тестирование требует изменений?

A/B-тестирование — стандартный инструмент оценки изменений в интерфейсе веб-приложений. Однако у него есть ряд серьёзных недостатков:

  • Высокие затраты: для получения статистически значимых результатов нужен большой поток реальных пользователей, что дорого и сложно, особенно для новых или нишевых сайтов и приложений.

  • Длительность процесса: от планирования эксперимента до анализа результатов могут пройти недели или даже месяцы.

  • Ограниченность масштабирования: сложно одновременно тестировать много идей из-за инженерных и ресурсных ограничений.

Появление LLM-агентов, способных имитировать поведение пользователей, открывает возможность автоматизировать и ускорить этот процесс.

Цель исследования

Авторы ставят перед собой задачу разработать систему AgentA/B, которая:

  • Автоматически создаёт виртуальных пользователей (агентов) с заданными характеристиками и сценариями поведения.

  • Позволяет проводить масштабные A/B-тесты без необходимости привлечения большого количества реальных пользователей.

  • Обеспечивает автоматический анализ результатов, помогая быстро понять, какие изменения интерфейса работают лучше.

Как устроена система AgentA/B?

Архитектура системы AgentA/B

Архитектура системы AgentA/B

Авторы использовали комплексный подход, включающий качественные и количественные методы:

  • Подготовительный этап: Были проведены интервью с шестью экспертами из индустрии, чтобы понять основные проблемы традиционного A/B-тестирования и сформулировать требования к новой системе.

  • Создание агентов: С помощью LLM были созданы виртуальные пользователи с разными характеристиками (например, демографическими данными и уровнем цифровой грамотности).

  • Проведение тестов: Агенты распределялись по контрольной и экспериментальной группам. Для автоматизированного взаимодействия с веб-страницами использовались браузерные инструменты (ChromeDriver, Selenium WebDriver). Агенты выполняли задачи (например, поиск бюджетного товара на Amazon.com), а система собирала подробные логи их действий.

  • Анализ результатов: После тестов система автоматически анализировала поведение агентов, сравнивая показатели между группами и с данными реальных пользователей.

Как происходит взаимодействие ИИ-агента с интерфейсом?

Описание того, как в AgentA/B организован цикл взаимодействия LLM‑агента с веб‑интерфейсом

Описание того, как в AgentA/B организован цикл взаимодействия LLM‑агента с веб‑интерфейсом
  1. Пользователь системы задаёт две версии веб‑страницы (контрольную и экспериментальную), между которыми нужно провести A/B‑тест.

  2. Далее работает Environment Parsing Module:

    1. Запускается браузер (ChromeDriver).

    2. Происходит парсинг страницы с помощью встроенного JavaScript‑скрипта – cчитываются только ключевые элементы: поисковая строка, список фильтров, товары и т. д, а также убираются шумовые элементы (баннеры, реклама, меню и т. д.).

    3. Наблюдение выдается в виде json-объекта.

    4. Формируется action space – перечень доступных шагов для агента.

  3. Прогнозирование действия LLM-агента:

    1. Контекст агента: Сгенерированная ранее Persona (демография, привычки, цели), текущий интент (конкретная задача, например «найти бюджетный солнечный фильтр для телескопа»), история уже совершённых действий, а также текущее состояние страницы (JSON‑наблюдение + Action Space).

    2. Запрос к LLM: Работает цепочка рассуждений: агент «думает» над тем, какое действие приведёт к выполнению его цели.

    3. Выход LLM – следующее действие.

  4. В финале отрабатывает Action Execution Module: происходит разбор команды, действие выполняется в браузере, обрабатываются ошибки и обновляется состояние страницы после действия.

  5. Новая итерация цикла. После успешного или неудачного выполнения действия управление возвращается к Environment Parsing Module, чтобы заново получить JSON‑снимок текущего состояния страницы. Затем процесс повторяется:Парсинг → Предсказание действия → Выполнение → Парсинг → …

    Цикл продолжается до тех пор, пока агент:

    • Успешно завершит задачу (достижение цели, команда terminate),

    • Не превысит лимит шагов/времени,

    • Или не застрянет (многократные неудачи в выполнении действий).

В итоге такой модульный и замкнутый цикл позволяет автоматически и в масштабе запускать сотни–тысячи симуляций, при этом гарантировать, что агент всегда «видит» актуальное состояние страницы и плавно обрабатывать непредсказуемые элементы реальных веб‑интерфейсов.

Сценарий A/B‑теста на Amazon.com: сравнение полноты фильтров

Два варианта дизайна левой панели фильтров на amazon для A/B-тестирования

Два варианта дизайна левой панели фильтров на amazon для A/B-тестирования

Цель: Оценить, как количество и релевантность опций в боковой панели фильтров влияет на поведение “покупателей” (реальных и виртуальных).

Условия: Полный список фильтров (все доступные опции показаны пользователю) и сокращённый список фильтров (оставлены только фильтры, схожие с поисковым запросом на ≥ 80%).

Метод:

  1. Сгенерировать 100 000 персонализированных LLM -агентов, выбрать случайные 1 000 (500 для полного списка фильтров, 500 для сокращённого).

  2. Каждому агенту задаётся цель покупки (например, «найти недорогую умную колонку до $40 с высоким рейтингом»).

  3. Автоматизированная сессия с лимитом в 20 действий: поиск → клики по товарам → применение фильтров → покупка/стоп.

  4. Логирование каждой сессии: последовательность действий, длительность, результат.

  5. Синхронный A/B‑тест с реальными пользователями (N=1 000 000) по тем же условиям.

Ключевые метрики:

  • Количество действий за сессию (Search, Click_product, Click_filter_option, Purchase, Stop).

  • Конверсия (Purchase rate).

  • Средняя сумма покупки.

  • Статистические тесты (t-test для средних, χ² для количества покупок).

Что показали результаты?

Реальные пользователи в контрольной группе и ИИ‑агенты в контрольной и экспериментальной группах. Агентам в экспериментальной группе удалось совершить статистически значимо больше покупок, чем в контрольной

Реальные пользователи в контрольной группе и ИИ‑агенты в контрольной и экспериментальной группах. Агентам в экспериментальной группе удалось совершить статистически значимо больше покупок, чем в контрольной
  • Сходство с поведением реальных пользователей: LLM-агенты демонстрировали поведение, близкое к человеческому. Хотя агенты действовали более целенаправленно и менее склонны были к случайным исследованиям, ключевые метрики (например, частота покупок и использование фильтров) были сопоставимы с реальными.

  • Разница между тестируемыми интерфейсами: В экспериментальной группе агенты чаще кликали по товарам и демонстрировали более целенаправленное поведение.

  • Была выявлена статистически значимая разница по количеству покупок между контрольной и экспериментальной группами, что совпало с результатами параллельных исследований с реальными пользователями.

  • По некоторым метрикам различия были менее выраженными, что говорит о необходимости увеличения выборки для более точных выводов.

Преимущества подхода

Система AgentA/B позволяет быстро и недорого получать предварительную обратную связь по изменениям интерфейса, не привлекая реальных пользователей. Это существенно снижает затраты и ускоряет процесс тестирования. Такое решение подойдет стартапам с нулевым трафиком, крупным командам UX‑дизайнеров и всем, кто ценит скорость и экономию.

Однако упрощённость модели поведения агентов, не учитывающей эмоции и случайные факторы человеческого поведения. Необходимо дальше работать над более глубокой персонализацией агентов для более точного воспроизведения человеческих паттернов поведения, возможно использование больших поведенческих (LBM) и популяционных моделей (LPM).

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: Dataist

Источник

Rambler's Top100