Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях

В 2021 году был создан BIG-Bench — универсальный инструмент для тестирования больших языковых моделей. Однако с развитием технологий современные модели стали обеспечивать точность более 90%, и BIG-Bench достиг своего предела. В ответ на это Google DeepMind разработала тест BIG-Bench Extra Hard (BBEH), который позволяет выявлять существенные недостатки даже в самых передовых моделях ИИ.

BBEH — это усовершенствованная версия BIG-Bench Hard (BBH). В BBEH каждое из 23 заданий, которые были в BBH, стало сложнее. Новые задания требуют от участников более широкого спектра логических навыков. Они также в среднем в шесть раз длиннее, чем задания BBH. Повышенная сложность заданий отражается в ответах моделей ИИ. Они обычно в семь раз длиннее, чем ответы BBH.

В новом тесте предстоит продемонстрировать умение мыслить логически, в том числе способность анализировать и делать выводы в условиях сложных логических связей, осваивать новые идеи, отделять важную информацию от второстепенной и находить ошибки ^[1] в логических цепочках.

Два примера показывают, насколько непрост этот тест. В задании на пространственное мышление ^[2] агент перемещается по геометрической структуре и наблюдает за объектами в разных точках. Модели должны отслеживать положение объектов и делать выводы об их взаимосвязях.

В задании «Свойства предметов» предлагается набор предметов с разнообразными параметрами: цветом, габаритами, происхождением, ароматом и материалом. Эти параметры могут меняться. Модели должны внимательно следить за изменениями характеристик всех предметов, в том числе в сложных ситуациях, например, когда теряется предмет с определёнными свойствами.

Google DeepMind протестировал как универсальные модели, такие как Gemini 2.0 Flash и GPT-4o, так и специализированные модели для логических рассуждений, такие как o3-mini ^[3] (high) и DeepSeek R1 ^[4]. Результаты выявили значительные ограничения: лучшая универсальная модель (Gemini 2.0 Flash ^[5]) показала среднюю точность в 9,8%, а лучшая модель для логических рассуждений (o3-mini high) показала средний результат в 44,8%. GPT-4.5 ^[6] ещё не тестировался.

Исследование показало, что существуют ожидаемые различия между общими и специализированными моделями логический рассуждений. Специализированные модели особенно хорошо справлялись с формальными задачами, связанными со счётом, планированием, арифметикой и структурами данных. Однако их преимущество уменьшалось или исчезало при выполнении задач, требующих здравого смысла, чувства юмора ^[7], сарказма и понимания причинно-следственных связей.

Тест BIG-Bench Extra Hard: как он выявляет недостатки в больших языковых моделях - 2

Примечательно, что o3-mini (high) от OpenAI значительно превзошел широко обсуждаемый DeepSeek R1. Китайская модель не справилась с несколькими тестами, включая полный провал теста «Свойства предмета». Исследователи объясняют это главным образом тем, что модель сбивается с пути, когда не может решить проблему с эффективной длиной выходного токена. Средняя точность R1 составила всего 6,8%, что на три процента ниже, чем у Gemini 2.0 Flash.

Исследование показало, что специализированные модели рассуждений получают больше преимуществ перед общими моделями по мере увеличения длины контекста и сложности мышления. Аналогичным образом, более крупные общие модели, такие как Gemini 2.0 Flash, демонстрируют преимущества перед более мелкими моделями, такими как Flash-Lite, при работе с более длинными контекстами.

В то время как современные LLM добились значительного прогресса, BBEH демонстрирует, что они по-прежнему далеки от достижения общей способности рассуждать. Исследователи подчеркивают, что все еще необходимо приложить много усилий для устранения этих пробелов и разработки более универсальных систем ИИ.

Источник ^[8]

Автор: mefdayy

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12807

URLs in this post:

[1] ошибки: http://www.braintools.ru/article/4192

[2] мышление: http://www.braintools.ru/thinking

[3] o3-mini: https://the-decoder.com/openai-launches-new-reasoning-model-o3-mini-for-free-chatgpt-and-api/

[4] DeepSeek R1: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/

[5] Gemini 2.0 Flash: https://the-decoder.com/googles-gemini-2-0-model-family-expands-with-flash-lite-and-pro/

[6] GPT-4.5: https://the-decoder.com/openais-largest-model-gpt-4-5-delivers-on-vibes-instead-of-benchmarks/

[7] юмора: http://www.braintools.ru/article/3517

[8] Источник: https://the-decoder.com/openai-beats-deepseek-by-a-surprisingly-wide-margin-in-googles-latest-reasoning-benchmark/

[9] Источник: https://habr.com/ru/companies/bothub/news/888018/?utm_source=habrahabr&utm_medium=rss&utm_campaign=888018

Нажмите здесь для печати.