- BrainTools - https://www.braintools.ru -
Видео с провалами на YouTube показывают, что у ведущих моделей искусственного интеллекта [1] есть серьёзный недостаток: они не справляются с неожиданными ситуациями и редко пересматривают свои первоначальные оценки. Даже такие продвинутые системы, как GPT-4o, спотыкаются на простых сюжетных поворотах.

Исследователи из Университета Британской Колумбии, Института искусственного интеллекта Vector и Наньянского технологического университета протестировали лучшие модели искусственного интеллекта на более чем 1600 неудачных видео с YouTube из набора данных Oops!
Команда создала новый эталонный тест под названием BlackSwanSuite, чтобы проверить, насколько хорошо эти системы справляются с непредвиденными событиями. Как и людей, модели ИИ сбивают с толку неожиданные моменты, но, в отличие от людей, они отказываются менять своё мнение даже после того, как видят, что произошло на самом деле.
Один из примеров: мужчина размахивает подушкой возле рождественской ёлки. ИИ предполагает, что он целится в кого-то поблизости. На самом деле подушка сбивает с ёлки украшения, которые затем падают на женщину. Даже после просмотра всего видео ИИ остаётся при своём первоначальном неверном предположении.
Видеоролики охватывают широкий спектр тем, среди которых чаще всего встречаются дорожно-транспортные происшествия (24%), несчастные случаи с детьми (24%) и несчастные случаи в бассейне (16%). Все их объединяет непредсказуемый поворот событий, который часто ускользает от внимания [2] даже людей.
Каждое видео разделено на три сегмента: установка, сюрприз и последствия. Тест ставит перед LLM разные задачи на каждом этапе. В задаче «Прогнозист» ИИ видит только начало видео и пытается предсказать, что будет дальше. Задача «Детектив» показывает только начало и конец, прося ИИ объяснить, что произошло между ними. В задании «Репортёр» ИИ получает полное видео и проверяется, может ли он скорректировать свои предположения после просмотра всей истории.
Тестированию подверглись как закрытые модели, такие как GPT-4o и Gemini 1.5 Pro, так и системы с открытым исходным кодом, такие как LLaVA-Video, VILA, VideoChat2 и VideoLLaMA 2. Результаты выявили явные недостатки. В детективном задании GPT-4o дал правильный ответ только в 65% случаев. Для сравнения: люди справились на 90%.
Разрыв увеличился ещё больше, когда моделям пришлось пересмотреть свои первоначальные предположения. Когда GPT-4o попросили пересмотреть свои прогнозы после просмотра всего видео, точность составила всего 60%, что на 32% ниже, чем у людей (92%). Системы, как правило, придерживались своего первоначального мнения, игнорируя новые данные.
Другие модели, такие как Gemini 1.5 Pro и LLaVA-Video, продемонстрировали ту же закономерность. По словам исследователей, производительность резко снижалась при воспроизведении видео, которые даже людям было сложно понять с первого раза.
Корень проблемы кроется в том, как обучаются эти модели ИИ. Они учатся, выявляя закономерности в миллионах видео, и ожидают, что эти закономерности будут повторяться. Поэтому, когда мусоровоз сбрасывает дерево вместо того, чтобы забрать мусор, ИИ сбивается с толку — у него нет шаблона для такого сценария.
Чтобы выявить проблему, команда попыталась заменить видеовосприятие ИИ подробными описаниями сцен, написанными человеком. Это повысило производительность LLaVA-Video на 6,4%. Добавление дополнительных пояснений повысило производительность ещё на 3,6%, в результате чего общий прирост составил 10%.
Как ни странно, это лишь подчёркивает слабость моделей: если ИИ демонстрирует высокую эффективность только тогда, когда люди берут на себя большую часть работы по восприятию [3], то он не может «видеть» и «понимать» до начала реального рассуждения.
Люди, напротив, быстро пересматривают свои предположения при появлении новой информации. Современным моделям ИИ не хватает такой гибкости мышления [4].
Этот недостаток может иметь серьёзные последствия для реальных приложений, таких как беспилотные автомобили и автономные системы. Жизнь полна сюрпризов: дети выбегают на дорогу, с грузовиков падают предметы, а другие водители совершают неожиданные манёвры.
Исследовательская группа разместила эталонный тест на GitHub [5] и Hugging Face [6]. Они надеются, что другие пользователи будут использовать его для тестирования и улучшения собственных моделей ИИ. Пока ведущие системы не справляются с простыми видео с ошибками, они не готовы к непредсказуемости реального мира.
Делегируйте часть рутинных задач вместе с BotHub [7]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь [9].
Автор: mefdayy
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17245
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] внимания: http://www.braintools.ru/article/7595
[3] восприятию: http://www.braintools.ru/article/7534
[4] мышления: http://www.braintools.ru/thinking
[5] GitHub: https://github.com/Chinchure/BlackSwanSuite
[6] Hugging Face: https://huggingface.co/datasets/BlackSwanSuite/BlackSwanSuite
[7] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=RESEARCHERS_USED_YOUTUBE_VIDEOS_TO_SHOW_HOW_AI_MODELS_HANDLE_UNEXPECTED_SITUATIONS
[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[9] здесь: https://the-decoder.com/researchers-used-1600-youtube-fail-videos-to-show-ai-models-struggle-with-surprises/
[10] Источник: https://habr.com/ru/companies/bothub/news/927322/?utm_source=habrahabr&utm_medium=rss&utm_campaign=927322
Нажмите здесь для печати.