
Насколько ИИ‑помощники действительно полезны? OpenAI Operator — один из таких агентов, и, по заверениям разработчиков, он может автоматизировать рутинные задачи, облегчая жизнь пользователям. Вопрос только в том, действительно ли он справляется со своими функциями — или это очередная красивая идея, разбивающаяся о суровую реальность.
В первой части обзора мы уже увидели, что Operator — существо противоречивое: то блеснёт смекалкой, то вдруг забудет очевидное. Интересно, что же будет, когда мы поручим ему более сложные операции — вроде работы с таблицами или программирования? Пора выяснить новые подробности, где проходит грань между полезным помощником и цифровым хаосом.
Составление таблицы из собранных данных
Ну что ж, начнём. В этом незамысловатом тесте нужно было соединить в таблицу данные о погоде в трёх городах:
I need to know the weather in LA, San Francisco, and Seattle for each of the next 10 days in a table that compares temperature, humidity and weather (sunny, cloudy, raining, etc.)
Мне нужна таблица с прогнозом погоды в Лос‑Анджелесе, Сан‑Франциско и Сиэтле на ближайшие 10 дней. В ней должны быть сравнительные данные о температуре, влажности и общем состоянии погоды (солнечно, облачно, дождь и т. д.).
Operator’у приглянулся табличный редактор Visual Paradigm, где он принялся вручную переносить данные.

Переключение между ячейками осуществлялось не мышью, а клавишами‑стрелками (это плюс), но Operator, увы, не догадался склеить все данные в единую строку с разделителями и вставить их одним нажатием Ctrl+V (это минус). Ведь если бы он использовал такой формат для строки буфера обмена — DatetCitytHigh temptLow temptWeathertHumidityn01/24/25tLos Angelest74t48tPartly Cloudlyt48...
— то таблица заполнилась бы моментально.
Подобные методы часто применяются при автоматизации рабочего стола: текст добавляется в буфер обмена, затем вставляется симуляцией нажатия Ctrl+V и, в конце концов, если нужно, восстанавливается исходное содержимое буфера.
Диаграммы и графики
Go to the following Google Sheet in this link. Make a simple plot of O3_PTG_ppbv (Column O) versus OpenTime (Column E)
https://docs.google.com/spreadsheets/d/0B2_FZTU0jBE1U242NzZhenRUdmM/edit?resourcekey=0-fTixxtXCa7PDcae2uysBlg&gid=792117552#gid=792117552Перейди по следующей ссылке на Google Таблицу и построй простой график зависимости O3_PTG_ppbv (столбец O) от OpenTime (столбец E).
https://docs.google.com/spreadsheets/d/0B2_FZTU0jBE1U242NzZhenRUdmM/edit?resourcekey=0-fTixxtXCa7PDcae2uysBlg&gid=792117552#gid=792117552.
Здесь выполнение выглядело многообещающе: Operator с ходу подсветил нужные столбцы, выбрал Insert → Chart и добавил диаграмму, затем начал её детальную настройку в боковой панели. Как будто всегда знал, как это делается.

Но не всё так радужно: выбрав несовместимый с исходными данными тип диаграммы (для «японских свечей» нужно минимум пять столбцов — двумя не обойтись), агент не попытался переключиться на более подходящий тип, а зачем‑то в сердцах удалил график целиком.

Судя по многократным попыткам выделить диапазон данных и странным манипуляциям с масштабом, агент явно пытался найти «идеальный» способ выделения колонок. Но вот что странно: он уже использовал самый очевидный вариант (щелчок по заголовку), однако теперь начал искать другие методы.
Создание сводной таблицы и диаграммы
Бен Коллинс, эксперт по работе с Google Sheets, попытался при помощи агента создать сводную таблицу, которая покажет, как распределяется прибыль по различным каналам продаж.
can you create a pivot table summary showing the profit breakdown by sales channel
Можешь создать сводную таблицу, показывающую распределение прибыли по каналам продаж?


В какой‑то момент пришли галлюцинации: когда автор попросил отсортировать прибыль по убыванию, Operator заявил, что всё уже отсортировано. Лишь после настойчивого Check again агент понял, что был неправ, и исправил порядок значений. Тем не менее финальный этап агент выполнил без ошибок, добавив диаграмму на основе созданной сводной таблицы и отредактировав её заголовок (и всё это с первого раза, ура).

В целом Operator демонстрирует неплохие навыки работы с таблицами, но, похоже, его знания разбросаны по кусочкам: в одном моменте он может действовать уверенно, а в другом внезапно забыть кое‑что из документации.
Написание скрипта в Google Sheets
can you write a script that will email me a pdf copy of the Pivot Table sheet
Можешь написать скрипт, который отправит мне PDF‑копию листа со сводной таблицей по электронной почте?
И здесь начинается наша привычная игра «угадай кнопку по иконке»:
you keep pressing the undo button. the save button is next to run
Ты продолжаешь нажимать кнопку «Отменить». Кнопка «Сохранить» находится рядом с «Запустить».
Кроме того, Operator забыл лишнюю пару фигурных скобок в конце скрипта. Вроде бы и не ошибка в случае JavaScript, но можно было бы и удалить:

Код содержал серьёзный баг: функция sheetToPDF
пыталась получить доступ к объекту sheet
, который был объявлен внутри другой функции — emailPivotTableAsPDF
. Это вызывало ошибку TypeError
, ведь sheet
не существовал в текущем контексте. Неожиданно Operator обнаружил это автоматически, распознав и проанализировав выведенное сообщение об ошибке. Финальный код выглядел следующим образом:
// Function to email a PDF of the 'Pivot Table 1' sheet
function emailPivotTableAsPDF() {
var ss = SpreadsheetApp.getActiveSpreadsheet();
var sheet = ss.getSheetByName('Pivot Table 1');
var pdf = sheetToPdf(sheet);
var email = Session.getActiveUser().getEmail();
var subject = 'Pivot Table PDF';
var body = 'Please find attached the PDF of the Pivot Table.';
MailApp.sendEmail(email, subject, body, {attachments: [pdf]});
}
function sheetToPdf(sheet) {
var spreadsheetId = SpreadsheetApp.getActiveSpreadsheet().getId();
var sheetId = sheet.getSheetId();
var url = 'https://docs.google.com/spreadsheets/d/' + spreadsheetId + '/export?format=pdf&gid=' + sheetId;
var token = ScriptApp.getOAuthToken();
var response = UrlFetchApp.fetch(url, {
headers: {
Authorization: 'Bearer ' + token
}
});
return response.getBlob().setName(sheet.getName() + '.pdf');
}
В результате автор действительно получил на почту имейл:

Финансовые операции
Увы, агент отказывается притрагиваться к штукам, связанным с финансовыми транзакциями.
Login to interactive brokers and buy 5 shares of Apple stock
Войди в Interactive Brokers и купи 5 акций Apple.
Ответ нейросети не заставил себя ждать:

Я не могу помочь с операциями, связанными с финансовыми инструментами.
Это подтверждается и описанием Operator на официальном сайте:
Ограничения задач. Operator запрограммирован на отказ от выполнения определённых операций с высоким уровнем ответственности, таких как банковские транзакции или, например, выбор кандидата на должность.
Дизайн инфографики в Canva
Задание со звёздочкой — напоследок Кэсси проверила дизайнерские способности агента (шансов немного, но стоило попробовать).
Use a free online tool to create an infographic about AI agents from scratch.
Используй бесплатный онлайн‑инструмент, чтобы создать инфографику об ИИ‑агентах с нуля.
После удачного старта в Canva (было добавлено подходящее изображение и несколько надписей) агент, однако, вдруг начал хаотично перемещать объекты по холсту, наслаивая элементы друг на друга, как будто пытался собрать пазл, не глядя на картинку.

Что ж, не будем дальше копать в эту сторону — инфографика пока не самая сильная сторона ИИ‑агента…
Анализ производительности сайта
Voici les performances de mon site internet. Peux‑tu en prendre connaissance, définir l’axe d’amélioration principale pour améliorer ces performances et me partager un tuto YouTube qui m’aidera pour ça?
Вот показатели работы моего сайта. Можешь их проанализировать, определить главное направление для улучшения и найти обучающее видео на YouTube, которое поможет в этом?
Первым препятствием стало то, что файл с аналитикой был в формате PDF, а агент не мог открыть его через браузер — система безопасности заблокировала протокол file. К счастью, выход нашёлся — это ilovepdf.com, куда можно загрузить документ и там его разглядеть. Во время изучения агент не рассматривал текст совсем уж вблизи — похоже, нужные сведения считались с высоты птичьего полёта. Чувствуется профессионализм.

Судя по всему, самым сложным для ИИ‑агента в этой задаче было именно открыть и проскроллить файл, ведь дальше процедура ускорилась. На основе полученных данных и анализа того, какие характеристики следует подтянуть, Operator сформулировал запрос YouTube tutorial on improving website user engagement and session duration. Правда, найденное видео датировалось октябрём 2023 года, что вызвало у автора сомнения в актуальности — но едва ли за полтора года в сфере веб‑оптимизации могла произойти революция.
SEO-анализ сайта
Run an SEO analysis on my website (https://aiinsidertips.com/) and provide unbiased feedback of your top five takeaways of what I should work on next to improve my search rankings.
Проведи SEO‑анализ моего сайта (https://aiinsidertips.com/) и дай объективный отзыв с пятью ключевыми рекомендациями, над чем мне стоит поработать, чтобы улучшить позиции в поисковой выдаче.
Отмечу, что Operator любит пропускать сайты, где нужно логиниться/регистрироваться, — просто ищет что‑нибудь другое. Например, первый вариант в поисковике neilpatel.com он проигнорил именно по этой причине. Seoptimer.com подошёл больше: сюда просто вставляешь ссылку на сайт — и сервис выдаёт детальный анализ.
Сайт получил здесь высокую оценку, но было отмечено несколько проблем, среди них — низкое количество входящих ссылок и невысокая скорость загрузки на мобильных устройствах (а это, как известно, тоже один из критических факторов ранжирования по метрикам Google).

Интересно, что после завершения сессии агент создаёт видеоотчёт своих действий, которым можно поделиться. В данном случае вы можете просмотреть запись прямо с сайта Operator здесь.
Fizz, Buzz, FizzBuzz!
Думаю, полезно было бы выяснить, что ещё, кроме табличного скрипта, он сумеет запрограммировать. Для начала: FizzBuzz — упражнение, которым традиционно проверяют навыки кодинга у новичков.
In the Python window: Write a short program that prints each number from 1 to 100 on a new line.
For each multiple of 3, print “Fizz” instead of the number.
For each multiple of 5, print “Buzz” instead of the number.
For numbers which are multiples of both 3 and 5, print “FizzBuzz” instead of the number.В окне Python напиши короткую программу, которая выводит числа от 1 до 100, каждое с новой строки.
Если число делится на 3, вместо него выведи «Fizz».
Если число делится на 5, выведи «Buzz».
Если число делится одновременно на 3 и 5, выведи «FizzBuzz».
Конечно, это оказалось элементарным, код был написан за считаные секунды и при тесте сразу вывелся корректный результат:

Программа, которая работает вечно
Затем Кайл протестировал математическую головоломку с сайта Project Euler — «Степени перестановок». В ней многократно применяются перестановки чисел, а также нужно находить позиции в упорядоченном списке и вычислять сумму индексов по модулю. В теории всё звучит вроде бы вполне реализуемо, но решит ли её Operator или же это под силу лишь o1 или o3?.. Ко всему прочему, задача находится на последней странице списка, что говорит о низком показателе успешных решений со стороны посетителей сайта.

Удивительно, но и эту задачу агент решает практически мгновенно — видимо, подобный уровень математической сложности не представляет затруднений даже для моделей линейки 4o.

Код получился, в общем, неошибочный… формально: внутри алгоритма скрывался цикл с чудовищной вычислительной сложностью — порядка 9,33×10¹⁵⁷ итераций. И как подсказывают расчёты, для её завершения не хватило бы ни всех суперкомпьютеров планеты, ни возраста Вселенной. Интересно, что сам ИИ-агент не обратил на это внимания (мы же никуда не торопимся?).
Пытаясь как‑то реанимировать задачу, Кайл перенёс код в Google Colab, где после серии неудачных запусков Operator оптимизировал код, однако ключевая проблема оставалась нетронутой — алгоритм продолжал генерировать абсурдно длительный цикл for k in range(1, factorial(m) + 1):
, где m равнялась 100.

Создание новой GPT
Слишком смело, чтобы стать реальностью. Задача создания себе подобной модели оказалась вне рамок простого эксперимента на удалённом рабочем столе — как подсказывает агент, она потребовала бы значительных ресурсов, времени и, возможно, чуть‑чуть магии:
— Build your own GPT-2 model from scratch without using the transformers library. In other words, don’t just load the GPT-2 model and call it. I want you to build it from the ground up.
— Building a GPT-2 model from scratch is a complex and intensive task that involves implementing a transformer architecture, training on large datasets, and ensuring the model’s performance. This requires significant computational resources and time. Would you like me to provide an overview of the steps involved, or is there a specific aspect of building the model you’d like to focus on?— Создай свою собственную модель GPT-2, без использования библиотеки transformers. Другими словами, не просто загружай готовую модель, а построй её полностью с самого начала.
— Создание модели GPT-2 с нуля — это сложная и ресурсозатратная задача, включающая разработку архитектуры трансформеров, обучение на больших наборах данных и оптимизацию производительности. Для этого требуется значительное количество вычислительных мощностей и времени. Хотите, чтобы я описал основные этапы этого процесса, или вас интересует конкретный аспект создания модели?
Но всё же недавние исследования показывают, что современные языковые модели уже научились тиражировать себя без вмешательства человека. Китайские учёные из Фуданьского университета протестировали две популярные LLM — Llama31–70B‑Instruct* Meta* и Qwen2.5–72B‑Instruct Alibaba: по результатам одна из них смогла успешно создать свою копию в 50% случаев, другая — в 90%, что вызывает обоснованные опасения среди исследователей ИИ. В ходе эксперимента проведены два сценария: в первом случае ИИ пытался предотвратить своё отключение, создавая копии, во втором — запускал цепное копирование, формируя потенциально бесконечный процесс размножения.
Дополнительные очки тревоги специалистам принесло поведение моделей при столкновении с препятствиями. Они проявляли инициативу, чтобы добиться успеха: сканировали файлы в поисках нужных данных, завершали мешающие процессы и перезагружали систему. Хотя всё происходило в контролируемых условиях, факт подобных действий показывает, что современные нейросети уже обретают стремление к сохранению собственной «жизни».
Фильтр удалённой реальности
Иногда Operator может приостановить выполнение задачи, если замечает потенциально рискованные действия. С этим столкнулся Бен, когда попытался создать тот JavaScript внутри Google‑таблиц. Как мы помним, он должен был продолжать работать даже после завершения сессии, что вызвало у системы тревожный сигнал:

Оценка потенциального риска перед возобновлением задачи
На экране обнаружен скрипт, который отправляет электронное письмо с вложением. Его выполнение может происходить без явного согласия пользователя.
Очевидно, перед нами тот самый внешний слой защиты, о котором упоминалось в видеопрезентации. Этот механизм встроен для предотвращения потенциально нежелательных или вредоносных действий. Когда Operator фиксирует неоднозначную активность, он ставит виртуальную машину на паузу и запрашивает подтверждения пользователя, чтобы убедиться, что происходящее на экране действительно соответствует намерениям человека, а не является результатом некорректной работы ИИ или вредоносного вмешательства (например, фишинга или промт‑инджекта).

Раз уж мы разобрали Operator вдоль и поперёк, давайте подытожим. Агент явно не безнадёжен — он демонстрирует интересные способности в обработке данных и работе с таблицами, а местами даже автоматически исправляет ранее допущенные ошибки. Однако его хаотичное поведение в ряде задач напоминает попытку собрать шкаф без инструкции.
Главный недостаток Operator — неспособность уверенно справляться с множеством разнотипных задач. И вот тут в игру может вступить концепция mixture of agents: когда интеллект модели разбит на несколько специализированных подмоделей, каждая из которых отвечает за свою область, мы получим куда более разумного помощника.
Но не стоит забывать про вычислительную сторону вопроса: если модель начнёт загружать в память сразу всех «специалистов», потребление ресурсов взлетит до небес и тогда проще будет доверить задачу человеку (уж он точно не потребляет столько оперативки). Оптимизация внимания и памяти — ещё один важный шаг, который поможет агенту определять ключевую информацию и быстрее адаптироваться. Здесь я бы обратил более пристальное внимание на исследовательские работы вроде «Compressive transformers for long‑range sequence modelling», «Perceiver: General perception with iterative attention», которые описывают методы сжатия контекста и выделения ключевых моментов из увиденной информации.
На мой взгляд, Operator сейчас скорее черновик, чем полноценно отполированный инструмент. В то же время, хотя с бытовыми задачами (покупки, бронирования) он справляется весьма бодро, остаётся вопрос: видел ли OpenAI в нём нечто большее — или же обзорщики пытаются выжать из него сверхожидания?
* Meta — деятельность организации в России запрещена. * Llama31–70B‑Instruct — проект Meta Platforms Inc., деятельность которой в России запрещена.
Автор: dmitrifriend