Заявления Apple о больших моделях обработки данных стали предметом нового исследования. apple.. apple. Gemini 2.5 Pro.. apple. Gemini 2.5 Pro. lrm.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ. ии и машинное обучение.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ. ии и машинное обучение. Иллюзия мышления.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ. ии и машинное обучение. Иллюзия мышления. искусственный интеллект.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ. ии и машинное обучение. Иллюзия мышления. искусственный интеллект. исследование.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ. ии и машинное обучение. Иллюзия мышления. искусственный интеллект. исследование. Машинное обучение.. apple. Gemini 2.5 Pro. lrm. Блог компании BotHub. большие языковые модели. ИИ. ии и машинное обучение. Иллюзия мышления. искусственный интеллект. исследование. Машинное обучение. модели ии.

В ходе повторного анализа статьи Apple «Иллюзия мышления», вызвавшей споры, были подтверждены некоторые ключевые критические замечания, однако главный вывод исследования был поставлен под сомнение.

Заявления Apple о больших моделях обработки данных стали предметом нового исследования - 1

Исследователи из испанского Центра автоматизации и робототехники CSIC-UPM провели повторные эксперименты, основываясь на данных оригинальной статьи Apple, которая была опубликована в июне 2025 года и вызвала широкий резонанс в сообществе разработчиков искусственного интеллекта

Apple утверждала, что даже новейшие большие модели рассуждений (LRM) с трудом справляются с задачами, требующими базового символического планирования. Исследование показало, что производительность этих моделей резко падает, когда сложность задачи выходит за рамки умеренного уровня, и что иногда они проявляют чрезмерную осторожность при решении более простых задач.

Новое исследование в значительной степени подтверждает выводы Apple, но оспаривает их интерпретацию. Испанская команда утверждает, что недостатки моделей связаны не только с отсутствием «мыслительных способностей», но и с тем, как составлены задачи, как структурированы подсказки и какие методы стохастической оптимизации используются.

Башни Ханоя: пошаговые решения работают не всегда

Чтобы проверить способность к долгосрочному планированию, исследователи использовали классическую головоломку «Ханойская башня» с такими моделями, как Gemini 2.5 Pro. Они разбили задачу на более мелкие подзадачи, чтобы моделям не приходилось генерировать решение целиком за один раз.

Такое поэтапное решение неплохо работало для систем с семью дисками. Но при использовании восьми и более дисков производительность резко падала, что соответствовало внезапному снижению производительности в исследовании Apple по мере увеличения сложности.

Новая интерпретация указывает на использование токенов как на ключевой фактор: количество токенов, которые расходует модель, напрямую связано с тем, считает ли она решение возможным. Пока модель считает, что может решить задачу, она увеличивает потребление ресурсов. Если она решает, что задача неразрешима, она быстро прекращает работу, что свидетельствует о своего рода неявном управлении неопределённостью.

Сотрудничество с агентом увеличивает усилия, но не успех

Исследователи также попробовали мультиагентный подход, при котором две языковые модели по очереди предлагали шаги для решения задачи. Это приводило к длительным обсуждениям и большому расходу токенов, но редко давало верные решения.

Хотя модели соблюдали все правила, они часто застревали в бесконечных циклах допустимых, но бесполезных ходов. Авторы приходят к выводу, что моделям не хватает способности распознавать и реализовывать стратегии более высокого уровня, даже если они действуют формально правильно.

В отличие от Apple, которая сочла эти сбои свидетельством недостаточных когнитивных способностей, испанская команда также винит в них структуру подсказок и отсутствие глобальных механизмов поиска.

Переправа через реку: задача Apple была неразрешимой

Самая резкая критика была направлена в адрес теста на переправу через реку, который лежит в основе статьи Apple. Apple сообщила об особенно низкой производительности модели в этом тесте, но повторное исследование показало, что многие тестовые случаи Apple были математически неразрешимыми — факт, который не был указан в оригинальной публикации.

Исследователи из Испании провели тестирование на корректных конфигурациях и выяснили, что модель успешно справляется с решением сложных задач, включающих более 100 пар агентов.

Удивительно, но наиболее трудными оказались не самые масштабные задачи, а скорее те, что находятся «в середине». У таких задач очень мало подходящих решений, и они требуют чрезвычайно точного планирования, что создаёт большую нагрузку на модели.

Это подтверждает один из ключевых выводов Apple: наибольшее снижение производительности языковых моделей зависит не только от того, насколько велика или сложна проблема. Вместо этого модели испытывают наибольшие трудности при решении задач средней сложности, таких как головоломка с переправой через реку с пятью парами агентов, у которой есть лишь несколько правильных решений. С более простыми или сложными задачами модели часто справляются лучше — либо потому, что существует много возможных решений, либо потому, что модель легче анализирует задачу.

LRM как агенты стохастического поиска на неизвестной территории

Испанская команда в конечном счёте отвергла основное утверждение Apple о том, что языковые модели принципиально не способны к обобщению. Вместо этого они описали эти модели как «стохастические, настроенные с помощью обучения с подкреплением поисковые системы в дискретном пространстве состояний, которое мы едва понимаем».

Согласно этой точке зрения, языковые модели — это не рациональные планировщики, а системы, которые исследуют локальные пути решения на основе изученных шаблонов и обладают лишь ограниченной способностью к долгосрочному планированию.

Исследователи также выдвигают гипотезу о том, что применение токенов может быть своего рода внутренним сигналом для модели о её субъективном восприятии возможности решить задачу. Когда модель считает, что задача может быть решена, она направляет больше ресурсов на её выполнение, а если не видит перспективы, то прекращает работу.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник

Rambler's Top100