AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности

AI может превосходно справляться с определёнными задачами, такими как программирование ^[1] или создание подкастов ^[2]. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.

Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей больших языков (LLM) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.

AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности - 1

Результаты, представленные ^[3]в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub ^[4](CSH), исследовательским институтом в Австрии. Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.

«Основной вывод этого исследования заключается в том, что модели больших языков, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и доцент компьютерных наук в Университетском колледже Лондона.

Исследователи поделились примерами исторических вопросов, на которые модели больших языков дали неправильные ответы. Например, у GPT-4 Turbo спросили, использовалась ли масштабная броня в определённый период в древнем Египте. Модель ответила утвердительно, хотя технология появилась в Египте только через 1500 лет позже.

Почему модели больших языков плохо отвечают на технические исторические вопросы, тогда как они могут отлично справляться с очень сложными вопросами, такими как программирование? Мария дель Рио-Чанона объяснила, что, вероятно, это связано с тем, что модели больших языков склонны экстраполировать из очень заметных исторических данных и испытывают трудности с извлечением более малоизвестных исторических знаний.

Например, исследователи спросили у GPT-4, имел ли древний Египет профессиональную постоянную армию в определённый исторический период. Хотя правильный ответ — нет, модель ошибочно ответила, что имел. Вероятно, это связано с большим количеством публичной информации о других древних империях, таких как Персия, имеющих постоянные армии.

«Если вам говорят A и B сто раз, и C один раз, а потом задают вопрос о C, вы можете просто запомнить A и B и попытаться экстраполировать из этого», — сказала Мария дель Рио-Чанона.

Исследователи также выявили другие тенденции, включая то, что модели OpenAI и Llama показывали худшие результаты для определённых регионов, таких как субсахарская Африка, что указывает на возможные предвзятости в их тренировочных данных.

Результаты показывают, что модели больших языков всё ещё не могут заменить людей в некоторых областях, сказал Питер Тёрчин, руководитель исследования и член факультета CSH.

Однако исследователи всё ещё надеются, что AI может помочь историкам в будущем. Они работают над уточнением своего бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.

«В целом, несмотря на то, что наши результаты подчеркивают области, в которых моделям больших языков необходимо улучшение, они также демонстрируют потенциал этих моделей в помощи историческим исследованиям», — говорится в статье.

Источник ^[5]

Автор: dilnaz_04

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11338

URLs in this post:

[1] программирование: https://techcrunch.com/2024/12/19/in-just-4-months-ai-coding-assistant-cursor-raised-another-100m-at-a-2-5b-valuation-led-by-thrive-sources-say/

[2] создание подкастов: https://techcrunch.com/2024/12/13/googles-notebooklm-now-lets-you-to-talk-to-its-ai-podcast-hosts/

[3] представленные : https://nips.cc/virtual/2024/poster/97439

[4] Complexity Science Hub : https://csh.ac.at/

[5] Источник: https://techcrunch.com/2025/01/19/ai-isnt-very-good-at-history-new-paper-finds/

[6] Источник: https://habr.com/ru/companies/bothub/news/874772/?utm_source=habrahabr&utm_medium=rss&utm_campaign=874772

Нажмите здесь для печати.