- BrainTools - https://www.braintools.ru -

OpenAI анонсировали Deep Research — самостоятельного агента для исследований

В 16:00 по Pacific Time OpenAI запустили стрим, на котором анонсировали новый продукт компании – Deep Research, особый режим для ChatGPT, в котором он переходит в режим высокой автономности, и может проводить длительные глубокие исследования – самостоятельно вырабатывать план работ, ходить по интернету в поисках информации, агрегировать и анализировать данные при помощи Python-скриптов, и всё это полностью без участия человека.

Простите за шакальные картинки, других пока нет :(

Простите за шакальные картинки, других пока нет :(

Это большой шаг в автономности ИИ – даже “думающие” (reasoning) модели от OpenAI хоть и способны вести (иногда) длинную цепочку мыслей, но неспособны настолько активно пользоваться различными инструментами для сбора информации и её обработки.

Бенчмарки

Начнем с бенчмарка Humanity Last Exam [1]:

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 2

Результат, безусловно, впечатляющий, но смущает “with browsing and python tools”. Ну то есть, AI смог пройти экзамен, и при этом мог… гуглить? Возникают вопросы по методологии, будем ждать более детальных разъяснений от OpenAI.

Теперь перейдём к GAIA [2], это гораздо интереснее:

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 3

GAIA интересен в первую очередь как раз тем, что это тесты заточенные под реалистичные задачи, которые выполняют люди в повседневной жизни: этот бенчмарк предполагает, что AI умеет юзать браузер, гуглить, размышлять, “видеть” изображения, и так далее. Поэтому, этот бенч кажется как раз наиболее релевантным для Deep Research.

Если взглянуть на лидерборд моделей [3], участвовавших в GAIA, то на первом месте там агент на базе Claude 3.5 Sonnet:

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 4

И здесь можно увидеть, что OpenAI демонстрируют действительно значительный рост, Deep Research в максимальном режиме выдаёт 58% на Level 3 против 42% (предыдущий рекорд) или 40.8% (предыдущий рекорд на HuggingFace).

Рассуждения о качестве

Дальше OpenAI рассказывают нам о том, как они тестировали этот продукт во внутренних бенчмарках. Это какие-то хитрые тесты, где они давали результат работы агента эксперту, и он оценивал, удовлетворительный ли это результат или нет.

После чего, OpenAI посчитали корреляцию между правильными ответами агента и тем, какая была ценность у проведённой работы (“economic value”) и тем, сколько это заняло времени.

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 5

Корреляции, надо сказать, довольно забавные. “Чем ценнее задача – тем сложнее добиться хорошего результата” – это понятная закономерность, обычно более ценные задачи более сложные, и корреляция “чем сложнее – тем хуже получается” – логична. А вот график справа скорее неожиданный: зачастую, когда модель проводит более быстрое исследование, она выдает более качественный результат, нежели чем когда исследует дольше. Я бы это объяснил через первую корреляцию – зачастую, более быстрые исследования нужны для более простых запросов, а как мы уже знаем из графика слева – по простым запросам результаты, закономерно, выше.

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 6

Ещё один интересный график. Tool calls – это обращения в браузер (гугл, википедия, прочие сайты) и выполнения кода на Python (числовая аналитика).

Здесь видно, что у агента практически нулевой результат, когда он делает менее 20 обращений к браузеру/питону. Но потом качество результата растет практически линейно с ростом количества обращений. Тренд заканчивается на отметке в 60 обращений – видимо, после этого числа модель уже достаточно прошерстила весь интернет, и всю легко-достижимую информацию, и дальше от количества запросов рост качества совсем незначителен.

Заключение

OpenAI начал год с сильных продуктов в “агентском” сегменте (сначала Operator, теперь Deep Research), кажется, что внутренний фокус компании сильно смещается с развития базовых моделей на развитие приложений, в которых эти модели применяются.

Пока что трудно судить, хорошо ли это. Моё личное мнение – это выглядит немного агонистично на фоне сильных архитектурных прорывов, которые совершили DeepSeek в R1-Zero, и то, что OpenAI пытается перетянуть одеяло инфоповодов на себя, выпуская довольно типовые продукты с AI-агентами – для меня несколько странно.

Хочется верить, что ребята понимают, что делают, и анонсы сильных базовых моделей не за горами.

—-

P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал [4] в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!

Автор: ElKornacio

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11801

URLs in this post:

[1] бенчмарка Humanity Last Exam: https://agi.safe.ai/

[2] GAIA: https://huggingface.co/papers/2311.12983

[3] взглянуть на лидерборд моделей: https://huggingface.co/spaces/gaia-benchmark/leaderboard

[4] ссылку на свой Телеграм канал: https://t.me/+XWgGWr7vH3NkOWIy

[5] Источник: https://habr.com/ru/news/878852/?utm_source=habrahabr&utm_medium=rss&utm_campaign=878852

www.BrainTools.ru

Rambler's Top100