- BrainTools - https://www.braintools.ru -
AI может превосходно справляться с определёнными задачами, такими как программирование [1] или создание подкастов [2]. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.
Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей больших языков (LLM) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.

Результаты, представленные [3]в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub [4](CSH), исследовательским институтом в Австрии. Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.
«Основной вывод этого исследования заключается в том, что модели больших языков, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и доцент компьютерных наук в Университетском колледже Лондона.
Исследователи поделились примерами исторических вопросов, на которые модели больших языков дали неправильные ответы. Например, у GPT-4 Turbo спросили, использовалась ли масштабная броня в определённый период в древнем Египте. Модель ответила утвердительно, хотя технология появилась в Египте только через 1500 лет позже.
Почему модели больших языков плохо отвечают на технические исторические вопросы, тогда как они могут отлично справляться с очень сложными вопросами, такими как программирование? Мария дель Рио-Чанона объяснила, что, вероятно, это связано с тем, что модели больших языков склонны экстраполировать из очень заметных исторических данных и испытывают трудности с извлечением более малоизвестных исторических знаний.
Например, исследователи спросили у GPT-4, имел ли древний Египет профессиональную постоянную армию в определённый исторический период. Хотя правильный ответ — нет, модель ошибочно ответила, что имел. Вероятно, это связано с большим количеством публичной информации о других древних империях, таких как Персия, имеющих постоянные армии.
«Если вам говорят A и B сто раз, и C один раз, а потом задают вопрос о C, вы можете просто запомнить A и B и попытаться экстраполировать из этого», — сказала Мария дель Рио-Чанона.
Исследователи также выявили другие тенденции, включая то, что модели OpenAI и Llama показывали худшие результаты для определённых регионов, таких как субсахарская Африка, что указывает на возможные предвзятости в их тренировочных данных.
Результаты показывают, что модели больших языков всё ещё не могут заменить людей в некоторых областях, сказал Питер Тёрчин, руководитель исследования и член факультета CSH.
Однако исследователи всё ещё надеются, что AI может помочь историкам в будущем. Они работают над уточнением своего бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.
«В целом, несмотря на то, что наши результаты подчеркивают области, в которых моделям больших языков необходимо улучшение, они также демонстрируют потенциал этих моделей в помощи историческим исследованиям», — говорится в статье.
Источник [5]
Автор: dilnaz_04
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11338
URLs in this post:
[1] программирование: https://techcrunch.com/2024/12/19/in-just-4-months-ai-coding-assistant-cursor-raised-another-100m-at-a-2-5b-valuation-led-by-thrive-sources-say/
[2] создание подкастов: https://techcrunch.com/2024/12/13/googles-notebooklm-now-lets-you-to-talk-to-its-ai-podcast-hosts/
[3] представленные : https://nips.cc/virtual/2024/poster/97439
[4] Complexity Science Hub : https://csh.ac.at/
[5] Источник: https://techcrunch.com/2025/01/19/ai-isnt-very-good-at-history-new-paper-finds/
[6] Источник: https://habr.com/ru/companies/bothub/news/874772/?utm_source=habrahabr&utm_medium=rss&utm_campaign=874772
Нажмите здесь для печати.