Исследователи использовали видео c YouTube, чтобы показать, как модели ИИ справляются с неожиданными ситуациями

Видео с провалами на YouTube показывают, что у ведущих моделей искусственного интеллекта ^[1] есть серьёзный недостаток: они не справляются с неожиданными ситуациями и редко пересматривают свои первоначальные оценки. Даже такие продвинутые системы, как GPT-4o, спотыкаются на простых сюжетных поворотах.

Исследователи из Университета Британской Колумбии, Института искусственного интеллекта Vector и Наньянского технологического университета протестировали лучшие модели искусственного интеллекта на более чем 1600 неудачных видео с YouTube из набора данных Oops!

Команда создала новый эталонный тест под названием BlackSwanSuite, чтобы проверить, насколько хорошо эти системы справляются с непредвиденными событиями. Как и людей, модели ИИ сбивают с толку неожиданные моменты, но, в отличие от людей, они отказываются менять своё мнение даже после того, как видят, что произошло на самом деле.

Один из примеров: мужчина размахивает подушкой возле рождественской ёлки. ИИ предполагает, что он целится в кого-то поблизости. На самом деле подушка сбивает с ёлки украшения, которые затем падают на женщину. Даже после просмотра всего видео ИИ остаётся при своём первоначальном неверном предположении.

Видеоролики охватывают широкий спектр тем, среди которых чаще всего встречаются дорожно-транспортные происшествия (24%), несчастные случаи с детьми (24%) и несчастные случаи в бассейне (16%). Все их объединяет непредсказуемый поворот событий, который часто ускользает от внимания ^[2] даже людей.

Три типа задач

Каждое видео разделено на три сегмента: установка, сюрприз и последствия. Тест ставит перед LLM разные задачи на каждом этапе. В задаче «Прогнозист» ИИ видит только начало видео и пытается предсказать, что будет дальше. Задача «Детектив» показывает только начало и конец, прося ИИ объяснить, что произошло между ними. В задании «Репортёр» ИИ получает полное видео и проверяется, может ли он скорректировать свои предположения после просмотра всей истории.

Тест включает 15 469 вопросов по всем трём заданиям, основанным на видео

Тестированию подверглись как закрытые модели, такие как GPT-4o и Gemini 1.5 Pro, так и системы с открытым исходным кодом, такие как LLaVA-Video, VILA, VideoChat2 и VideoLLaMA 2. Результаты выявили явные недостатки. В детективном задании GPT-4o дал правильный ответ только в 65% случаев. Для сравнения: люди справились на 90%.

В таблице сравниваются закрытые и открытые модели с результатами людей, выполнявших задания на детекцию и репортёрство с несколькими вариантами ответов и ответами «да» или «нет»

Разрыв увеличился ещё больше, когда моделям пришлось пересмотреть свои первоначальные предположения. Когда GPT-4o попросили пересмотреть свои прогнозы после просмотра всего видео, точность составила всего 60%, что на 32% ниже, чем у людей (92%). Системы, как правило, придерживались своего первоначального мнения, игнорируя новые данные.

Другие модели, такие как Gemini 1.5 Pro и LLaVA-Video, продемонстрировали ту же закономерность. По словам исследователей, производительность резко снижалась при воспроизведении видео, которые даже людям было сложно понять с первого раза.

Мусоровозы же не сбрасывают деревья, не так ли?

Корень проблемы кроется в том, как обучаются эти модели ИИ. Они учатся, выявляя закономерности в миллионах видео, и ожидают, что эти закономерности будут повторяться. Поэтому, когда мусоровоз сбрасывает дерево вместо того, чтобы забрать мусор, ИИ сбивается с толку — у него нет шаблона для такого сценария.

GPT-4o следует своим первоначальным предположениям и выбирает неправильный ответ

Чтобы выявить проблему, команда попыталась заменить видеовосприятие ИИ подробными описаниями сцен, написанными человеком. Это повысило производительность LLaVA-Video на 6,4%. Добавление дополнительных пояснений повысило производительность ещё на 3,6%, в результате чего общий прирост составил 10%.

Как ни странно, это лишь подчёркивает слабость моделей: если ИИ демонстрирует высокую эффективность только тогда, когда люди берут на себя большую часть работы по восприятию ^[3], то он не может «видеть» и «понимать» до начала реального рассуждения.

Люди, напротив, быстро пересматривают свои предположения при появлении новой информации. Современным моделям ИИ не хватает такой гибкости мышления ^[4].

Этот недостаток может иметь серьёзные последствия для реальных приложений, таких как беспилотные автомобили и автономные системы. Жизнь полна сюрпризов: дети выбегают на дорогу, с грузовиков падают предметы, а другие водители совершают неожиданные манёвры.

Исследовательская группа разместила эталонный тест на GitHub ^[5] и Hugging Face ^[6]. Они надеются, что другие пользователи будут использовать его для тестирования и улучшения собственных моделей ИИ. Пока ведущие системы не справляются с простыми видео с ошибками, они не готовы к непредсказуемости реального мира.

Делегируйте часть рутинных задач вместе с BotHub ^[7]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь ^[9].

Автор: mefdayy

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17245

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] внимания: http://www.braintools.ru/article/7595

[3] восприятию: http://www.braintools.ru/article/7534

[4] мышления: http://www.braintools.ru/thinking

[5] GitHub: https://github.com/Chinchure/BlackSwanSuite

[6] Hugging Face: https://huggingface.co/datasets/BlackSwanSuite/BlackSwanSuite

[7] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=RESEARCHERS_USED_YOUTUBE_VIDEOS_TO_SHOW_HOW_AI_MODELS_HANDLE_UNEXPECTED_SITUATIONS

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] здесь: https://the-decoder.com/researchers-used-1600-youtube-fail-videos-to-show-ai-models-struggle-with-surprises/

[10] Источник: https://habr.com/ru/companies/bothub/news/927322/?utm_source=habrahabr&utm_medium=rss&utm_campaign=927322

Нажмите здесь для печати.