OpenAI анонсировали Deep Research — самостоятельного агента для исследований. deep research.. deep research. o1.. deep research. o1. openai.. deep research. o1. openai. агенты.. deep research. o1. openai. агенты. ИИ.. deep research. o1. openai. агенты. ИИ. искусственный интеллект.. deep research. o1. openai. агенты. ИИ. искусственный интеллект. Машинное обучение.. deep research. o1. openai. агенты. ИИ. искусственный интеллект. Машинное обучение. модели.

В 16:00 по Pacific Time OpenAI запустили стрим, на котором анонсировали новый продукт компании – Deep Research, особый режим для ChatGPT, в котором он переходит в режим высокой автономности, и может проводить длительные глубокие исследования – самостоятельно вырабатывать план работ, ходить по интернету в поисках информации, агрегировать и анализировать данные при помощи Python-скриптов, и всё это полностью без участия человека.

Простите за шакальные картинки, других пока нет :(
Простите за шакальные картинки, других пока нет :(

Это большой шаг в автономности ИИ – даже “думающие” (reasoning) модели от OpenAI хоть и способны вести (иногда) длинную цепочку мыслей, но неспособны настолько активно пользоваться различными инструментами для сбора информации и её обработки.

Бенчмарки

Начнем с бенчмарка Humanity Last Exam:

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 2

Результат, безусловно, впечатляющий, но смущает “with browsing and python tools”. Ну то есть, AI смог пройти экзамен, и при этом мог… гуглить? Возникают вопросы по методологии, будем ждать более детальных разъяснений от OpenAI.

Теперь перейдём к GAIA, это гораздо интереснее:

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 3

GAIA интересен в первую очередь как раз тем, что это тесты заточенные под реалистичные задачи, которые выполняют люди в повседневной жизни: этот бенчмарк предполагает, что AI умеет юзать браузер, гуглить, размышлять, “видеть” изображения, и так далее. Поэтому, этот бенч кажется как раз наиболее релевантным для Deep Research.

Если взглянуть на лидерборд моделей, участвовавших в GAIA, то на первом месте там агент на базе Claude 3.5 Sonnet:

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 4

И здесь можно увидеть, что OpenAI демонстрируют действительно значительный рост, Deep Research в максимальном режиме выдаёт 58% на Level 3 против 42% (предыдущий рекорд) или 40.8% (предыдущий рекорд на HuggingFace).

Рассуждения о качестве

Дальше OpenAI рассказывают нам о том, как они тестировали этот продукт во внутренних бенчмарках. Это какие-то хитрые тесты, где они давали результат работы агента эксперту, и он оценивал, удовлетворительный ли это результат или нет.

После чего, OpenAI посчитали корреляцию между правильными ответами агента и тем, какая была ценность у проведённой работы (“economic value”) и тем, сколько это заняло времени.

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 5

Корреляции, надо сказать, довольно забавные. “Чем ценнее задача – тем сложнее добиться хорошего результата” – это понятная закономерность, обычно более ценные задачи более сложные, и корреляция “чем сложнее – тем хуже получается” – логична. А вот график справа скорее неожиданный: зачастую, когда модель проводит более быстрое исследование, она выдает более качественный результат, нежели чем когда исследует дольше. Я бы это объяснил через первую корреляцию – зачастую, более быстрые исследования нужны для более простых запросов, а как мы уже знаем из графика слева – по простым запросам результаты, закономерно, выше.

OpenAI анонсировали Deep Research — самостоятельного агента для исследований - 6

Ещё один интересный график. Tool calls – это обращения в браузер (гугл, википедия, прочие сайты) и выполнения кода на Python (числовая аналитика).

Здесь видно, что у агента практически нулевой результат, когда он делает менее 20 обращений к браузеру/питону. Но потом качество результата растет практически линейно с ростом количества обращений. Тренд заканчивается на отметке в 60 обращений – видимо, после этого числа модель уже достаточно прошерстила весь интернет, и всю легко-достижимую информацию, и дальше от количества запросов рост качества совсем незначителен.

Заключение

OpenAI начал год с сильных продуктов в “агентском” сегменте (сначала Operator, теперь Deep Research), кажется, что внутренний фокус компании сильно смещается с развития базовых моделей на развитие приложений, в которых эти модели применяются.

Пока что трудно судить, хорошо ли это. Моё личное мнение – это выглядит немного агонистично на фоне сильных архитектурных прорывов, которые совершили DeepSeek в R1-Zero, и то, что OpenAI пытается перетянуть одеяло инфоповодов на себя, выпуская довольно типовые продукты с AI-агентами – для меня несколько странно.

Хочется верить, что ребята понимают, что делают, и анонсы сильных базовых моделей не за горами.

—-

P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!

Автор: ElKornacio

Источник

Rambler's Top100