Кто пользовался Perplexity Deep Research, наверняка ловил два чувства сразу:
-
“Ого, он реально копает.”
-
“Жаль, что нельзя посмотреть, что происходит внутри, вмешаться, перезапустить шаг или расширить сбор — это чёрный ящик.”
Agent Browser Workspace — не “одна кнопка SaaS”. Это локальный набор инструментов, который даёт любому ИИ-агенту (Cursor, ваш собственный агент, LLM-оркестратор) настоящий браузер для исследований.
Работает на вашей машине, через ваш Chrome, но в отдельном профиле. Без Docker, без экзотических окружений.
Кратко
-
Дешевле Perplexity: на DeepResearch Bench получили 44.37 (RACE overall) на Claude Haiku 4.5 — модель заметно дешевле типичных “фронтирных” стэков.
-
Локально и прозрачно: реальный Chrome перед глазами — можно остановить, залогиниться, закрыть баннер, перезапустить шаг, расширить сбор, уточнить запрос. Итераций — сколько угодно.
-
Не только deep research: ещё и инструмент для браузерной автоматизации + извлечения контента, форм, HTML-данных.
-
Расширяемо: новые сайты добавляются профилями в
scripts/sites/*.json— селекторы и “контролы” живут отдельно от кода и промптов.
Что внутри?
Agent Browser Workspace — репозиторий с двумя уровнями:
1) Низкий уровень (utils/)
-
utils/browserUse.js— управление реальным Chrome через Playwright: навигация, клики, ввод, скроллинг (включая infinite scroll), скриншоты, загрузка файлов и картинок, выполнение JS на странице, вкладки, CDP. -
utils/getDataFromText.js— парсинг готового HTML без браузера: находит навигацию, основной контент, формы и конвертирует контент в Markdown.
2) Высокий уровень (scripts/)
Готовые блоки для исследовательского пайплайна:
-
getContent— сохранить страницу в Markdown + скачать картинки и переписать ссылки на локальные файлы. -
getForms— найти формы, классифицировать (search/auth/filter/contact/subscribe) и построить готовые CSS-селекторы для заполнения. -
getAll— контент + формы за один проход (один HTML-снимок). -
googleSearch— пошаговый Google-поиск: запрос → органические ссылки → открыть → извлечь → закрыть вкладку → пагинация.
Чем это лучше типичного deep research SaaS
1) Контроль остаётся у вас
В SaaS-deep-research обычно виден только прогресс-бар и итог. Тут по-другому:
-
Браузер реальный — не “виртуальный скриншотный чёрный ящик”.
-
Можно вмешаться: закрыть cookie-баннер, пройти логин, подтвердить возраст, поправить фильтр.
-
Можно перезапустить конкретный шаг: открыть следующую ссылку, повторно извлечь контент, изменить стратегию ожидания (SPA/JS-рендеринг), прокрутить infinite scroll перед извлечением.
-
Можно расширять бесконечно: “добавь ещё 10 источников”, “перепроверь цифры”, “дополни раздел таблицей”, “собери список альтернатив”, “пройди по снежному кому ссылок”.
Исследование становится итеративным. Один провалившийся шаг не убивает весь процесс.
2) Артефакты и воспроизводимость
Deep research — не только итоговый текст. Это ещё и доказательная база:
-
links.json— стабильный снимок выдачи Google по всем запросам (можно продолжить позже, не повторяя поиск). -
Скачанные страницы в Markdown +
images/— источники лежат на диске. -
insights.md— накопительный черновик (в методологииRESEARCH.mdэто часть процесса).
3) Локально, без лишней инфраструктуры
Ни контейнеров, ни удалённых браузеров, ни специальных платформ:
-
npm install -
npx playwright install chrome -
npm run chrome(поднимает Chrome с CDP на 9222)
Три команды — и готово. Подробности — в INSTALLATION.md.
Расширяемость: профили сайтов вместо хардкода
Типичная боль в browser-agents — селекторы ломаются. Сайты меняют разметку, и агент начинает угадывать.
Тут иначе — через site profiles:
-
scripts/sites/*.jsonхранит селекторы и “controls” (какие элементы важны, что с ними делать). -
Скрипты возвращают поле
site, и агент использует готовые селекторы без угадывания.
Нужно поддержать новый сайт? Добавляете JSON-профиль. Google поменял разметку? Правите scripts/sites/google-search.json, а не переписываете код.
DeepResearch Bench: зачем нужны цифры
Когда все заявляют “у нас лучший deep research”, нужна внешняя мерка.
Такой меркой стал DeepResearch Bench (DRB) — 100 задач “PhD-уровня”, две метрики (RACE/FACT) и публичная методология оценки.
Ссылки:
-
Официальный сайт DRB:
https://deepresearch-bench.github.io/ -
Репозиторий:
https://github.com/Ayanami0730/deep_research_bench
Цифры, которые можно проверить
На официальной странице DRB в секции Main Results для категории “Deep Research Agent” (RACE overall):
-
Gemini-2.5-Pro Deep Research: 48.88
-
OpenAI Deep Research: 46.98
-
Perplexity Deep Research: 42.25
А вот результат Agent Browser Workspace:
44.37 (RACE overall) — выше Perplexity Deep Research, ближе к OpenAI/Gemini, и при этом на Claude Haiku 4.5 (модель значительно дешевле “фронтирных” стэков).
Результаты отправлены в лидерборд и находятся на рассмотрении.
Почему “44.37 на Haiku” — не просто цифра
В большинстве сравнений забывают про цену и управляемость.
Тут выигрыш сразу по трём направлениям:
-
Качество рядом с топами (DRB overall близко к OpenAI/Gemini).
-
Стоимость ниже (Haiku-класс моделей).
-
Контроль и воспроизводимость — на вашей машине, с реальными артефактами (links.json + скачанные источники).
Как попробовать за 5 минут
1) Установить
npm install
npx playwright install chrome
2) Запустить локальный Chrome для агента
npm run chrome
3) Сохранить любую страницу в Markdown (с картинками)
node scripts/getContent.js --url https://example.com --dir ./output --name page.md
4) Deep research: Google → открыть → сохранить источник
# Стабильный снимок выдачи (links.json)
node scripts/googleSearch.js "best AI newsletters 2026" --links --dir ./archive/my-research
# Открыть результат 0 и сохранить контент
node scripts/googleSearch.js "best AI newsletters 2026" --open 0 --dir ./archive/my-research --name source-0.md
PDF тоже поддерживается: если в выдаче попался .pdf, getContent/googleSearch автоматически извлекают текст.
Если сайт “пустой” (SPA, JS-рендеринг, lazy-load)
Классический провал “быстрых” веб-скраперов: HTML пришёл, а контента нет.
В проекте есть эскалация (подробности — в AGENTS.md):
-
gotoAndWaitForContent()— подождать стабилизацию DOM после JS-рендеринга -
evaluate(() => document.body.innerText)— вытащить видимый текст напрямую -
scroll({ times: N })— подгрузить lazy-контент или ленту -
screenshot({ fullPage: true })— если текст недоступен программно
Логика простая: страница важна — не пропускаем — поднимаем уровень извлечения.
Не только deep research: где ещё пригодится
1) Продуктовый и маркетинговый ресёрч
Можно собрать выдачу, зафиксировать links.json, сохранить 30–60 источников в Markdown, а потом на локальных артефактах просить агента “дополни / сравни / перепроверь / сделай таблицу”.
2) Автоматизация веб-рутины
Войти, нажать, скачать, заполнить, сделать скриншоты, сохранить доказательства — всё здесь.
3) Сбор форм и готовых селекторов
getForms находит формы и поля, отдаёт готовые CSS-селекторы.
Дальше агент вызывает browser.fill() или browser.fillForm() без угадывания.
Почему “локально + наблюдаемо” — это принципиально
Закрытые deep-research-продукты удобны, когда нужен быстрый ответ.
Но если вы работаете с исследованиями, бизнес-решениями, источниками, проверками и итерациями — нужен другой режим:
-
наблюдать,
-
останавливать,
-
чинить препятствия,
-
перезапускать шаги,
-
добавлять глубину,
-
докручивать отчёт,
-
продолжать, пока результат не устроит.
Agent Browser Workspace про это.
Где почитать и что дальше
-
GitHub:
https://github.com/k-kolomeitsev/agent-browser-workspace -
Обзор инструментов и правила работы:
AGENTS.md -
Установка и “QOL”-инструкции (профили/ярлыки/проверка):
INSTALLATION.md -
Методология глубокого исследования:
RESEARCH.md
Если хотите помочь open source-проекту — вот самые полезные вклады:
-
новые и улучшенные site profiles в
scripts/sites/ -
улучшение извлечения контента на сложных сайтах (SPA, paywall-оверлеи, lazy-render)
-
более умные правила детекции форм и полей
Дочитали? Поставьте звезду репозиторию — это лучший способ помочь проекту расти.
Автор: kolkoni


