- BrainTools - https://www.braintools.ru -

Команда Hugging Face представила собственную открытую реализацию агента DeepResearch от OpenAI

Инженеры Hugging Face рассказали [1] в блоге, что вдохновились функцией DeepResearch от OpenAI и решили за 24 часа разработать собственную реализацию. В итоге получился поисковой агент, который может автономно просматривать веб-страницы, искать на них нужную информацию, скачивать файлы с сайтов, анализировать их и агрегировать всё в ответ.

Для улучшения производительности исследователи использовали CodeAgent [2] — агента, который может выражать свои действия в виде кода. Авторы проекта уверены что длинную последовательность сложных действий эффективнее описать кодом, а не естественным языком.

Команда Hugging Face представила собственную открытую реализацию агента DeepResearch от OpenAI - 1

Также команда Hugging Face использовала в своей работе инструменты от разработчиков Microsoft Research:

  • Текстовый браузер. [3] У исследователей было всего 24 часа на разработку, поэтому решили выбрать примитивную реализацию браузера, которая отображает страницы в виде текста. Этот способ плохо подходит людям, но нейросетям проще анализировать именно тексты. В будущем команда планирует перейти на «визуальный браузер» [4].

  • Инспектор текста. [5] На веб-страницах могут находиться файлы с полезной информацией, поэтому важно иметь возможность скачивать их, преобразовывать в Markdown и обрабатывать с помощью языковой модели. Инспектор в проекте Hugging Face может работать с HTML, HTM, XLSX, PPTX, WAV, MP3, FLAC, PDF и DOCX. Важно отметить, что с помощью инструмента нельзя обрабатывать изображения.

Готовый поисковой агент набрал 67% правильных ответов в бенчмарке GAIA [6] и 55% в Magentic-One [7]. Код реализации DeepResearch от Hugging Face опубликовали [8] на GitHub.

Ещё одну открытую реализацию поискового агента DeepResearch представил [9] разработчик под никнеймом mshumer. Он использовал комбинацию из сервисов OpenRouter API, SERPAPI и Jina.

Автор: daniilshat

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11913

URLs in this post:

[1] рассказали: https://huggingface.co/blog/open-deep-research

[2] CodeAgent: https://huggingface.co/papers/2402.01030

[3] Текстовый браузер.: https://github.com/huggingface/smolagents/blob/gaia-submission-r1/examples/open_deep_research/scripts/text_web_browser.py

[4] «визуальный браузер»: https://github.com/huggingface/smolagents/blob/gaia-submission-r1/src/smolagents/vision_web_browser.py

[5] Инспектор текста.: https://github.com/huggingface/smolagents/blob/gaia-submission-r1/examples/open_deep_research/scripts/text_inspector_tool.py#L34

[6] GAIA: https://huggingface.co/gaia-benchmark

[7] Magentic-One: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/

[8] опубликовали: https://github.com/huggingface/smolagents/tree/gaia-submission-r1/examples/open_deep_research

[9] представил: https://habr.com/ru/news/879538/

[10] Источник: https://habr.com/ru/news/879896/?utm_source=habrahabr&utm_medium=rss&utm_campaign=879896

www.BrainTools.ru

Rambler's Top100