- BrainTools - https://www.braintools.ru -
Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.

Тест RELIC работает следующим образом: ИИ получает формальную грамматику — по сути, точный набор правил, определяющих искусственный язык, — а также строку символов. Затем модель должна определить, является ли строка допустимой в соответствии с правилами грамматики.
Например, «предложение» (обозначается как S) определяется как «часть A», за которой следует «часть B» (S → A B). «Часть A» сама по себе состоит из «символа C» и «символа D» (A → C D), и так далее до таких правил, как «символ C становится ‘t43’» (C → ‘t43’). ИИ должен определить, может ли строка «t43 t51 t66 t72» быть сгенерирована с помощью этих правил. Важно отметить, что модель не получает примеров правильных или неправильных строк и не проходит предварительную подготовку по конкретной грамматике — она должна применять правила «с нуля», полагаясь только на описание, данное в контексте.

Чтобы добиться успеха, модель должна распознавать и правильно применять множество правил в правильном непостоянном порядке — иногда многократно и во вложенных комбинациях. По словам исследователей, это похоже на проверку правильности написания компьютерной программы или грамматической правильности предложения. Существует два типа правил грамматики: те, которые разбивают абстрактные заполнители (нетерминалы, такие как S, A, B) на другие заполнители (например, S → A B), и те, которые заменяют заполнители конкретными символами (терминалами, такими как «t43») (например, C → «t43»). RELIC может автоматически генерировать неограниченное количество тестовых примеров разной сложности, не позволяя моделям просто запоминать ответы на основе известных тестовых данных.
Команда протестировала восемь различных моделей ИИ, включая GPT-4.1 и o3 от OpenAI, модели Gemma от Google и DeepSeek-R1. Для исследования они создали набор данных RELIC-500, который включает 200 уникальных грамматик, каждая из которых содержит до 500 продукционных правил, и тестовые строки длиной до 50 символов. Исследователи отмечают, что даже самые сложные грамматики в RELIC-500 намного проще, чем в реальных языках программирования или человеческих языках.
Как правило, модели хорошо справлялись с простыми грамматиками и короткими строками. Но по мере усложнения грамматики или увеличения длины строки точность резко снижалась — даже для моделей, предназначенных для логических рассуждений, таких как OpenAI o3 или DeepSeek-R1. Один из ключевых выводов: хотя модели часто «знают» правильный подход — например, полностью анализируют строку, отслеживая применение каждого правила, — они не всегда применяют эти знания на практике.
Для простых задач модели, как правило, правильно применяли правила. Но по мере усложнения задач они переходили к эвристическим методам вместо построения правильного «деривационного дерева». Например, модели иногда предполагали, что строка верна, просто потому что она была особенно длинной, или искали только отдельные символы, которые встречались где-то в правилах грамматики, независимо от порядка. Такой подход на самом деле не проверяет, соответствует ли строка грамматике.
Чтобы изучить стратегии рассуждений моделей, исследователи использовали другой ИИ — o4-mini от OpenAI — в качестве своего рода «судьи ИИ» для оценки решений. Рецензенты-люди проверили выборку этих решений и обнаружили, что они совпадают примерно в 70% случаев, причём o4-mini особенно хорошо выявляет поверхностные, упрощённые решения.
Анализ показал, что при решении коротких и простых задач модели пытались применять правила шаг за шагом, выстраивая логичное «дерево разбора». Но при работе с более длинными или сложными примерами они по умолчанию использовали поверхностную эвристику.
Основная проблема, выявленная в ходе исследования, — это связь между сложностью задачи и «вычислениями во время тестирования» модели, то есть количеством вычислений, измеряемым числом промежуточных этапов рассуждений, которые модель использует при решении задачи. Теоретически эта нагрузка должна увеличиваться с увеличением длины входных данных. На практике исследователи увидели противоположное: при работе с короткими строками (до 6 символов для GPT-4.1-mini, 12 символов для o3) модели создавали относительно много промежуточных шагов, но по мере усложнения задач количество шагов уменьшалось.
Другими словами, модели обрывают свои рассуждения до того, как у них появляется реальная возможность проанализировать структуру. Такое «недодумывание» при выполнении более сложных задач очень похоже на то, что недавно наблюдали исследователи из Apple [1] при работе с LRM, где активность мышления [2] фактически снижалась по мере увеличения сложности.
Оба исследования показывают, что, хотя современные модели рассуждений могут решать простые задачи, они принципиально не справляются со сложными задачами — и, как ни парадоксально, «думают» меньше, а не больше, по мере усложнения. RELIC выходит за рамки игровых сценариев, описанных в исследовании Apple, и тестирует навык, важный для ИИ в реальном мире: изучение и применение новых языков или систем правил с использованием только информации, представленной в контексте.
RELIC также напрямую проверяет более сложную форму контекстного понимания, чем в таких тестах, как «иголка в стоге сена», где нужно найти один-единственный факт в длинном отрывке. В RELIC релевантные правила разбросаны по всему тексту и должны быть объединены сложным образом.
Теоретический анализ, проведённый исследователями, показывает, что будущим языковым моделям потребуется либо гораздо больше вычислительных мощностей — например, больше токенов для рассуждений во время вывода, — либо принципиально более эффективные стратегии решения этих проблем. Они утверждают, что способность понимать и выполнять сложные инструкции необходима для по-настоящему интеллектуального ИИ.
Пользуясь случаем, хочу порекомендовать BotHub [3]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [4] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник [5]
Автор: mefdayy
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/16325
URLs in this post:
[1] недавно наблюдали исследователи из Apple: https://the-decoder.com/apple-study-finds-a-fundamental-scaling-limitation-in-reasoning-models-thinking-abilities/
[2] мышления: http://www.braintools.ru/thinking
[3] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=RESEARCH_ON_THE_ABILITY_OF_LANGUAGE_MODELS_TO_LOGICAL_REASONING_RELIC_TEST
[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[5] Источник: https://the-decoder.com/a-new-study-by-nyu-researchers-supports-apples-doubts-about-ai-reasoning-but-sees-no-dead-end/
[6] Источник: https://habr.com/ru/companies/bothub/news/919260/?utm_source=habrahabr&utm_medium=rss&utm_campaign=919260
Нажмите здесь для печати.