- BrainTools - https://www.braintools.ru -

ИИ уже пишет код, управляет проектами и общается с коллегами. Но можно ли прямо сейчас доверить ему всю офисную работу? Исследователи протестировали 7 самых мощных нейросетей на 175 реальных задачах. Спойлер: полностью заменить сотрудников нейросети пока не могут. Но давайте разберемся, что именно у них получается лучше всего, какие задачи еще вызывают трудности и стоит ли уже сегодня нанимать себе цифрового помощника в штат.
Исследователи из проекта TheAgentCompany выпустили статью “TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks” [1]: они решили проверить насколько хорошо ИИ-агенты способны писать код, управлять задачами, анализировать отчеты и общаться с коллегами на примере реальной компании-стартапа, смоделированной специально для тестирования нейросетей.
Авторы создали виртуальную компанию с типичными корпоративными системами:
GitLab для хранения кода и документации.
OwnCloud для офисных документов.
Plane для управления проектами.
RocketChat для внутренней переписки с виртуальными коллегами.
Всего было сформулировано 175 типичных рабочих задач разного уровня сложности по ролям: разработчики, менеджеры проектов, финансисты, HR-специалисты, администраторы и другие. Каждая задача была четко описана и разделена на контрольные точки, за выполнение которых начислялись баллы.
Задачи выполняли семь современных языковых моделей:
Claude-3.5 Sonnet
Gemini-2.0 Flash
GPT-4o
Amazon Nova Pro
Llama-3.1 405B
Llama-3.3 70B
Qwen-2.5 72B
Модели запускались в Docker-контейнере и имели доступ к терминалу, Python-ячейкам и браузеру. Оценивалась точность выполнения задач и стоимость (по количеству токенов).
Самой успешной моделью оказалась Claude-3.5 Sonnet, которая смогла полностью автономно выполнить 24% задач. Ещё 10,4% задач она решила частично, в сумме набрав 34,4% баллов. Средняя стоимость выполнения одной задачи составила $6.34.
Более дешевая модель Gemini-2.0 Flash решила полностью только 11,4% задач, но стоила всего $0.79, хотя тратила больше шагов (в среднем 40 на задачу). Интересный факт: GPT-4o оказалась менее эффективной (8,6% успеха), но «сдавалась» раньше, экономя бюджет ($1.29 за задачу).
Среди открытых моделей лучшей оказалась Llama-3.1 405B с полным результатом в 7,4% задач и стоимостью $3.21. Однако более компактная Llama-3.3 70B практически не уступила ей (6,9% задач), при этом обойдясь всего в $0.93.
Анализ по платформам показал:
На GitLab лучше всего справляется Claude (почти 31% задач), а Llama-3.1 — всего 5,6%.
В задачах управления проектами (Plane) показатели лучше: Claude (41,2%), Llama (29,4%).
В общении с коллегами (RocketChat) Claude выполнил 21,5% задач, а Llama — менее 9%.
Самые большие проблемы с OwnCloud (офисные документы): Claude решил лишь 10%, а Llama вообще 0%.
По типам задач:
Разработка ПО и управление проектами (SDE, PM) – самые успешные задачи (30-35% успеха).
Слабее всего нейросети показали себя в административных задачах (0%) и финансах (Claude – 8,3%).
Самые частые ошибки [2]:
Отсутствие базового здравого смысла (например, не понимают, что файл с расширением .docx — это документ).
Социальные промахи: игнорирование советов и рекомендаций виртуальных коллег.
Проблемы с интерфейсом: нейросети путаются в сложных веб-приложениях и не могут справиться с простыми всплывающими окнами.
Иногда пытаются переименовать пользователя вместо того, чтобы найти нужного коллегу.
Уже сейчас современные нейросети могут значительно ускорить выполнение рутинных и простых рабочих задач. Особенно эффективны они там, где есть технический код или четкие инструкции.
Однако пока нельзя полностью полагаться на нейросети в долгосрочных, сложных и социальных задачах. Также не хватает креативности и стратегического мышления [3] – нейросети действуют шаблонно и плохо адаптируются к неожиданностям.
Существуют риски с потенциальной безработицей: если ИИ заменят сотрудников в простых задачах, специалисты должны будут повышать квалификацию, чтобы оставаться востребованными.
Авторы предлагают следующие шаги для улучшения ИИ-агентов:
Проверять на более сложных, креативных задачах.
Добавить возможность работать не только с текстом, но и с визуальной информацией.
Сравнить эффективность нейросетей с людьми-профессионалами.
Улучшать способность моделей работать в социальных и интерфейсных сценариях с помощью гибридных архитектур.
Несмотря на ограничения, уже сейчас ИИ может эффективно поддерживать корпоративные процессы и освобождать сотрудников от рутины. До полной автономии далеко, но уже сегодня реалистична идея «гибридного» рабочего места, где человек и машина работают вместе, дополняя друг друга. Это новый этап в развитии технологий, и он уже здесь.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [4]– там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14955
URLs in this post:
[1] “TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks”: https://arxiv.org/abs/2412.14161
[2] ошибки: http://www.braintools.ru/article/4192
[3] мышления: http://www.braintools.ru/thinking
[4] подписывайтесь на мой Telegram-канал : https://t.me/+FRoPZ_uwn-I5ODAy
[5] Источник: https://habr.com/ru/articles/907284/?utm_source=habrahabr&utm_medium=rss&utm_campaign=907284
Нажмите здесь для печати.