- BrainTools - https://www.braintools.ru -

Критика и альтернативные взгляды на возможности современных языковых моделей

Команда Apple протестировала ведущие модели в классических логических головоломках, таких как Ханойская башня [1], и обнаружила, что даже продвинутым системам по-прежнему трудно выполнять простые алгоритмы правильно и в полном объеме. Основываясь на этих результатах, авторы утверждают, что LLM не имеют истинно обобщаемых рассуждений, вместо этого действуя как сопоставители шаблонов, которые упускают из виду более глубокие структуры.

Критика и альтернативные взгляды на возможности современных языковых моделей - 1

Отдельное исследование пришло к аналогичным выводам [2], хотя оно было менее критичным, отметив, что еще многое предстоит узнать о том, насколько хорошо LLM могут рассуждать. А в документе Salesforce, посвященном сравнительному анализу производительности LLM в контексте CRM, [3] было обнаружено, что их возможности резко упали в более сложных, многооборотных сценариях.

Критики говорят, что этот аргумент слишком категоричен

Скептики в отношении LLM [4] рассматривают эти работы как подтверждение своих сомнений [5] в том, что эти системы способны к реальному мышлению [6], и беспокоятся, что это может ограничить развитие продвинутого ИИ. Но некоторые эксперты в области ИИ утверждают, что выводы в статье слишком упрощённые.

Лоуренс Чан [7], сотрудник Metr, предложил более глубокое понимание концепции LessWrong. Он считает, что представление о дебатах как о выборе между логическим мышлением [8] и механическим запоминанием [9] не учитывает сложный промежуточный вариант, в котором сочетаются и человеческие, и машинные методы мышления.

Например, когда человек ловит мяч, он не использует сложные математические формулы, а действует интуитивно. Эти простые приёмы не говорят о недостатке знаний, а являются эффективными методами решения задач в условиях ограниченных ресурсов.

Языковые модели, как отмечает Чан, также зависят от опыта [10] и абстрагирования в условиях жёстких вычислительных ограничений. Он отмечает, что обобщение можно рассматривать как продвинутую форму запоминания — начиная с отдельных примеров, переходя к поверхностным стратегиям и в конечном итоге формируя более широкие правила.

Чан отмечает, что, хотя LLM могут испытывать трудности с выводом всех 32 000+ ходов для головоломки Ханойская башня с 15 дисками в точном запрошенном формате, они могут мгновенно сгенерировать скрипт на Python для решения этой задачи. Он утверждает, что, когда LLM объясняют свой подход, предлагают краткие пути и практические решения в виде кода, это демонстрирует функциональное — пусть и иное — понимание задачи. По мнению Чана, если учитывать это как недостаток понимания, то можно упустить суть.

Чан также обращает внимание [11] на то, что не стоит полагаться на результаты решения теоретических задач как на критерий оценки общих способностей моделей. По его мнению, важно определить, насколько эти стратегии применимы к сложным задачам из реальной жизни.

Хотя в документе Apple указаны конкретные недостатки современных LLM, Чан считает, что это уводит в сторону от более серьёзной проблемы: какие виды «рассуждений» важны для практического применения и насколько хорошо с этим справляются LLM?

Ответ ИИ был просто шуткой

Широко распространённая [12] статья «Иллюзия иллюзии мышления», которая распространялась как предполагаемый ответ на критику Apple и была частично написана Claude 4 Opus, никогда не задумывалась как настоящее опровержение. По словам автора Алекса Лоусона [13], это была просто шутка, полная ошибок.

Лоусон был поражён тем, с какой скоростью его шутка распространилась и как много людей отнеслись к ней всерьёз. Он признался, что это был первый случай, когда он почувствовал, что его творение стало по-настоящему популярным, и, откровенно говоря, это было немного пугающе.


Пользуясь случаем, хочу порекомендовать BotHub  [14]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [15] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник [16]

Автор: mefdayy

Источник [17]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16441

URLs in this post:

[1] Команда Apple протестировала ведущие модели в классических логических головоломках, таких как Ханойская башня: https://the-decoder.com/apple-study-finds-a-fundamental-scaling-limitation-in-reasoning-models-thinking-abilities/

[2] Отдельное исследование пришло к аналогичным выводам: https://the-decoder.com/a-new-study-by-nyu-researchers-supports-apples-doubts-about-ai-reasoning-but-sees-no-dead-end/

[3] документе Salesforce, посвященном сравнительному анализу производительности LLM в контексте CRM,: https://the-decoder.com/salesforces-crm-benchmark-finds-ai-agents-struggle-in-real-world-business-scenarios/

[4] Скептики в отношении LLM: https://garymarcus.substack.com/p/five-quick-updates-about-that-apple

[5] работы как подтверждение своих сомнений: https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

[6] мышлению: http://www.braintools.ru/thinking

[7] Лоуренс Чан: https://www.lesswrong.com/posts/5uw26uDdFbFQgKzih/beware-general-claims-about-generalizable-reasoning

[8] логическим мышлением: http://www.braintools.ru/thinking/typology/logical-thinking

[9] запоминанием: http://www.braintools.ru/article/722

[10] опыта: http://www.braintools.ru/article/6952

[11] внимание: http://www.braintools.ru/article/7595

[12] Широко распространённая: https://msukhareva.substack.com/p/on-illusion-of-thinking-do-llms-reason

[13] По словам автора Алекса Лоусона: https://lawsen.substack.com/p/when-your-joke-paper-goes-viral

[14] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=CRITICISM_AND_ALTERNATIVE_VIEWS_ON_THE_CAPABILITIES_OF_MODERN_LANGUAGE_MODELS

[15] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[16] Источник: https://the-decoder.com/apples-illusion-of-thinking-paper-shows-experts-deeply-divided-on-ai-reasoning/

[17] Источник: https://habr.com/ru/companies/bothub/news/920284/?utm_source=habrahabr&utm_medium=rss&utm_campaign=920284

www.BrainTools.ru

Rambler's Top100