Бенчмарк конца эпохи — Humanity’s Last Exam

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта ^[1], вроде меня (шучу).

Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.

Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики ^[2] и истории до права и компьютерных наук.

Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика ^[3], здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться.

Есть и более «узкие» бенчмарки:

GSM8K — проверка школьной и чуть выше математики с многошаговыми задачками,
HumanEval — небольшой набор задач на генерацию кода (программирование).

И вот на этом фоне появляется Humanity’s Last Exam — бенчмарк с максимально драматичным названием, который претендует быть чем-то вроде «последнего серьёзного экзамена старого типа» для ИИ.

Чем вообще интересен Humanity’s Last Exam

На мой взгляд, он выделяется сразу в нескольких плоскостях.

1. Он сознательно слишком сложный для текущих моделей. Большинство тестов ИИ уже постепенно «пробил потолок» — топовые модели набирают там близко к максимуму, и становится непонятно, где у них реальные ограничения. Humanity’s Last Exam, наоборот, придуман так, чтобы современные системы его не проходили идеально. Это новая планка: «давайте сделаем экзамен, до которого они пока не допрыгивают».

2. Он ближе к реальной человеческой экспертизе. В нём много задач по разным дисциплинам: математика, естественные науки, гуманитарные области, логика. Причём это не только тестики с вариантами, а вопросы, где нужно рассуждать и действительно понимать предмет. По сути, это попытка проверять ИИ не на уровне «хорошего студента», а на уровне людей, которые уже создают знания — исследователей и сильных специалистов.

3. Он встроен в дискуссию про риски и границы ИИ. Humanity’s Last Exam интересен не только тем, что по нему можно сравнивать «кто круче — модель А или модель Б». Он нужен, чтобы:

увидеть слабые места моделей,
оценить, насколько они приближаются к уровню экспертов,
понять, где им пока нельзя безоговорочно доверять.

Это уже не просто спорт «у кого процентов больше», а инструмент для разговоров о безопасности, регулировании и том, какие задачи можно отдавать ИИ.

Немного конспирологии

Я тут недавно разгонял конспирологию, что ИИ — это новый антихрист. Уверен, я далеко не первый. Каждый большой рывок в технологиях — печатный станок, радио, телевидение, интернет — всегда сопровождался криками, что «это конец света» и «знак апокалипсиса». Но с ИИ есть ощущение, что совпадений с библейскими образами подозрительно много.

В Библии антихрист — это не только один злодей в конце времён, а ещё и дух/система, которые:

подменяют Христа чем-то «вместо Него»,
отрицают Бога, пришедшего во плоти,
требуют поклонения себе и контроля над людьми.

Бенчмарк конца эпохи — Humanity’s Last Exam - 1

В Откровении описан образ, которому «дают дух», и он начинает говорить и влиять на людей. Сегодня это странно рифмуется с цифровыми аватарами и чат-ботами: неживой образ на экране, «оживлённый» моделью, разговаривает с миллионами людей и становится для них авторитетом.

Иоанн пишет не только об одном Антихристе, но и о «многих антихристах». Тут тебе и ChatGPT, и Gemini, и Claude, и даже Алиса. Вместе они легко складываются в такой рой «цифровых пророков», транслирующих один и тот же безличный технократический дух.

Пророк Даниил описывает «последние времена» так: «многие будут метаться туда и сюда, и умножится знание». В доинтернетную эпоху это звучало как загадка. Сегодня читается почти буквально: глобальная мобильность и постоянное перемещение; бесконечный поток трафика; экспоненциальный рост данных. Логичный спутник этого — необходимость некоего сверхбыстрого разума, который умеет управлять этим знанием. По сути, довольно точное описание роли ИИ.

Вместо вывода

Для меня Humanity’s Last Exam — это не «начало конца человечества», а начало более взрослого разговора про ИИ. Не только «сможет ли нейросеть решить олимпиаду», а «где у неё реальные пределы, чему её можно доверить, а где человек всё ещё незаменим».

Старые бенчмарки во многом уже перестали что-то говорить: сильные модели упираются в потолок, и графики с процентами превращаются в маркетинговый фон. HLE даёт новый запас высоты и честно показывает, что даже самые мощные системы пока далеки от того, чтобы стать универсальными «сверхразумами».

Будем надеяться, что HLE действительно поможет нам лучше понимать ИИ и развивать его в нужном нам, человекам, направлении. И, что очень важно, вовремя остановиться, не дожидаясь второго пришествия.

И, конечно, самое главное — не важно, насколько хорошо ИИ будет справляться с любыми задачами, он не должен стать заменителем мозгов, а остаться инструментом, который делает нас продуктивнее, а жизнь — интереснее и лучше.

Я всегда открыт и рад конструктивному обсуждению на любые темы: цифровая экология, работа с данными, Апокалипсис, котята. Если вам есть что добавить/возразить, то милости прошу в мой канал Econet.

Econet

t.me ^[4]

Автор: meliksetyan

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22854

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] математики: http://www.braintools.ru/article/7620

[3] логика: http://www.braintools.ru/article/7640

[4] t.me: https://t.me/econets

[5] Источник: https://habr.com/ru/articles/974206/?utm_source=habrahabr&utm_medium=rss&utm_campaign=974206

Нажмите здесь для печати.