- BrainTools - https://www.braintools.ru -

Гэри Маркус, один из самых известных критиков современного ИИ, неожиданно мягко прокомментировал [1] свежие результаты Claude Mythos на бенчмарке METR. На последнем замере модель Anthropic показала горизонт автономной работы 16+ часов при 50%-вероятности успеха и 3 часа при 80% — это вдвое больше ближайшего конкурента. Маркус согласился, что прогресс реальный, но добавил, что сам по себе Mythos может и не быть главной причиной успеха.
Бенчмарк, о котором идет речь, разработала организация METR [2] — некоммерческая лаборатория из Беркли, которая оценивает способность ИИ-агентов автономно выполнять долгие задачи. Метрика устроена так: на каждой из 228 задач (программирование, машинное обучение [3], кибербезопасность) сначала измеряют, сколько на нее тратит человек-эксперт, а потом смотрят, при какой длине задачи модель справляется с заданным процентом успеха. Публикация METR от 8 мая показывает, что с 50%-вероятностью Mythos уперся в потолок самого бенчмарка — задач длиннее 16 часов в наборе всего 5 из 228. Поверх графика METR честно повесила оговорку, что точные цифры за этой отметкой ненадежны. Алекс Альберт из Anthropic параллельно опубликовал альтернативный график, где у Mythos 80%-горизонт — 3 часа, и в этом ракурсе отрыв от ближайшего конкурента выглядит двукратным.
Маркус начал с привычной ноты: бенчмарк замеряет лишь 50%-вероятность успеха, а ненадежность остается главной проблемой LLM. Покрытие у METR — только разработка ПО, не общий интеллект [4]. Но дальше его аргументация поворачивает в неожиданную сторону. По мнению Маркуса, прогресс самой модели на графике виден лишь частично — большая часть прироста идет от агентских обвязок вроде Claude Code и Codex. И это, считает он, ранние прототипы тех самых нейросимволических систем, о которых Маркус говорит больше десяти лет: языковая модель плюс внешние инструменты для логики и проверки. Дословно: “это оправдание нейросимвольного подхода — но не доказательство, что сами LLM можно бесконечно масштабировать”.
Если Маркус прав, единицей сравнения становится не модель, а связка “модель плюс обвязка”. Это означает, что часть текущей дискуссии о прогрессе ИИ ведется не там — пока одни обсуждают параметры и архитектуры, реальный прирост во многом приходит от обертки.
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть [5]“, где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/30054
URLs in this post:
[1] прокомментировал: https://x.com/GaryMarcus/status/2053126547499045306
[2] разработала организация METR: https://metr.org/time-horizons/
[3] обучение: http://www.braintools.ru/article/5125
[4] интеллект: http://www.braintools.ru/article/7605
[5] сбежавшая нейросеть: https://t.me/ai_exee
[6] Источник: https://habr.com/ru/news/1033606/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1033606
Нажмите здесь для печати.