- BrainTools - https://www.braintools.ru -
Новый комментарий исследователей из Pfizer ставит под сомнение основные выводы исследования «Иллюзия мышления», соавторами которого являются учёные из Apple.

В статье, написанной Apple [1], утверждается, что это внезапное снижение производительности указывает на фундаментальный предел возможностей машинного мышления [2]. Другие исследования показали аналогичные результаты [3], но не называют это жёстким ограничением.
Команда Pfizer также не согласна [4] с интерпретацией Apple. Они утверждают, что снижение производительности вызвано не когнитивным барьером, а искусственными условиями тестирования. Если заставлять модели работать только в текстовой среде — без таких инструментов, как интерфейсы программирования, — сложные задачи становятся намного труднее, чем необходимо. То, что кажется проблемой мышления, на самом деле является проблемой выполнения.
В оригинальном исследовании такие модели, как Claude 3.7 Sonnet-Thinking и Deepseek-R1, тестировались на текстовых головоломках — «Ханойская башня» или «Переправа через реку». По мере усложнения головоломок точность моделей резко снижалась — это явление в исследовании назвали «обрывом рассуждений».
Команда Pfizer указывает на нереалистичные ограничения теста: модели не могли использовать внешние инструменты и должны были отслеживать всё в виде обычного текста. Это не выявило ошибок в рассуждениях, но сделало практически невозможным для моделей выполнение длительных и точных шагов по решению задач.
В качестве примера исследователи из Pfizer рассмотрели модель o4-mini. Без доступа к инструментам она объявила решаемую головоломку «Переправа через реку» неразрешимой, вероятно, потому, что не могла вспомнить предыдущие шаги. Это ограничение памяти [5] — хорошо известная проблема современных языковых моделей, которая также описана в исследовании Apple.
Компания Pfizer называет это «выученной беспомощностью»: когда LRM не может идеально выполнить длинную последовательность действий, он может ошибочно решить, что задача невыполнима.
В исследовании Apple также не учитывалась «кумулятивная ошибка». В задачах с тысячами шагов вероятность безупречного выполнения снижается с каждым шагом. Даже если модель на 99,99% точна на каждом шаге, вероятность решения сложной головоломки «Ханойская башня» без ошибок составляет менее 45%. Таким образом, наблюдаемое снижение производительности может просто отражать статистическую реальность, а не когнитивные ограничения.
Команда Pfizer снова протестировала GPT-4o и o4-mini, на этот раз с доступом к инструменту Python. Оба алгоритма легко решали простые головоломки, но по мере усложнения задачи их методы расходились.
GPT-4o использовал Python для реализации логичной, но ошибочной стратегии и не распознал ошибку [6]. С другой стороны, o4-mini заметил свою первоначальную ошибку, проанализировал ее и переключился на правильный подход, что привело к успешному решению.
Исследователи связывают такое поведение [7] с классическими идеями когнитивной науки. GPT-4o действует как «Система 1» Дэниела Канемана [8] — быстро и интуитивно, но склонна придерживаться плохого плана. o4-mini, в свою очередь, демонстрирует мышление «Системы 2»: медленное, аналитическое и способное пересмотреть собственную стратегию после осознания ошибки. Такая метакогнитивная корректировка считается типичной для сознательного решения проблем.
Команда Pfizer утверждает, что будущие тесты LRM должны проверять модели как с инструментами, так и без них. Тесты без инструментов выявляют ограничения языковых интерфейсов, в то время как тесты с инструментами показывают, чего могут достичь модели в качестве агентов. Они также призывают к созданию тестов, которые будут оценивать метакогнитивные способности, такие как обнаружение ошибок и стратегическая корректировка.
Эти результаты также имеют значение с точки зрения [9] безопасности. Модели ИИ, которые слепо следуют ошибочным планам, не исправляя их, могут быть небезопасными, в то время как модели, способные пересматривать свои стратегии, скорее всего, будут более надёжными.
Первоначальное исследование «Иллюзия мышления», проведённое Шоджаи и др. (2025), вызвало широкую дискуссию о том, на что на самом деле способны большие языковые модели [10]. Анализ Pfizer подтверждает эти сведения, но указывает на более сложные аспекты проблемы, чем просто «отсутствие у машин способности к мышлению».
Источник [11]
Автор: mefdayy
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/16769
URLs in this post:
[1] статье, написанной Apple: https://the-decoder.com/apple-study-finds-a-fundamental-scaling-limitation-in-reasoning-models-thinking-abilities/
[2] мышления: http://www.braintools.ru/thinking
[3] Другие исследования показали аналогичные результаты: https://the-decoder.com/a-new-study-by-nyu-researchers-supports-apples-doubts-about-ai-reasoning-but-sees-no-dead-end/
[4] Команда Pfizer также не согласна: https://www.arxiv.org/abs/2506.18957
[5] памяти: http://www.braintools.ru/article/4140
[6] ошибку: http://www.braintools.ru/article/4192
[7] поведение: http://www.braintools.ru/article/9372
[8] Дэниела Канемана: https://the-decoder.com/two-systems-of-thinking-when-ai-leverages-human-psychology/
[9] зрения: http://www.braintools.ru/article/6238
[10] вызвало широкую дискуссию о том, на что на самом деле способны большие языковые модели: https://the-decoder.com/apples-illusion-of-thinking-paper-shows-experts-deeply-divided-on-ai-reasoning/
[11] Источник: https://the-decoder.com/researchers-push-back-on-apple-study-lrms-can-handle-complex-tasks-with-the-right-tools/
[12] Источник: https://habr.com/ru/companies/bothub/news/923036/?utm_source=habrahabr&utm_medium=rss&utm_campaign=923036
Нажмите здесь для печати.