Главный критик LLM почти похвалил Claude Mythos. Почти

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал ^[1] свежие результаты Claude Mythos на бенчмарке METR. На последнем замере модель Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80% — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.

Бенчмарк, о котором идет речь, разработала организация METR ^[2] — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Метрика устроена так: на каждой из 228 задач (программирование, машинное обучение ^[3], кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх графика METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.

Маркус начал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не общий интеллект ^[4]. Но дальше его аргументация поворачивает в неожиданную сторону. По мнению Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, считает он, ранние прототипы тех самых нейросимволических систем, о которых Маркус говорит больше десяти лет: языковая модель плюс внешние инструменты для логики и проверки. Дословно: “это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать”.

Если Маркус прав, единицей сравнения становится не модель, а связка “модель плюс обвязка”. Это означает, что часть текущей дискуссии о прогрессе ИИ ведется не там — пока одни обсуждают параметры и архитектуры, реальный прирост во многом приходит от обертки.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть ^[5]“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/30054

URLs in this post:

[1] прокомментировал: https://x.com/GaryMarcus/status/2053126547499045306

[2] разработала организация METR: https://metr.org/time-horizons/

[3] обучение: http://www.braintools.ru/article/5125

[4] интеллект: http://www.braintools.ru/article/7605

[5] сбежавшая нейросеть: https://t.me/ai_exee

[6] Источник: https://habr.com/ru/news/1033606/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1033606

Нажмите здесь для печати.