Бенчмарк конца эпохи — Humanity’s Last Exam. ai.. ai. benchmarks.. ai. benchmarks. fun.. ai. benchmarks. fun. hle.. ai. benchmarks. fun. hle. llm.. ai. benchmarks. fun. hle. llm. бенчмарки.. ai. benchmarks. fun. hle. llm. бенчмарки. ИИ.. ai. benchmarks. fun. hle. llm. бенчмарки. ИИ. Исследования и прогнозы в IT.

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).

Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.

Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.

Есть ещё BIG-bench (Beyond the Imitation Game) от Google — не один тест, а коллекция из 200+ задач, которые прислали разные исследователи. Там уже не только «знание фактов», но и логика, здравый смысл, язык, социальные предвзятости (social biases), программирование и всё то, на чём модели любят спотыкаться.

Есть и более «узкие» бенчмарки:

  • GSM8K — проверка школьной и чуть выше математики с многошаговыми задачками,

  • HumanEval — небольшой набор задач на генерацию кода (программирование).

И вот на этом фоне появляется Humanity’s Last Exam — бенчмарк с максимально драматичным названием, который претендует быть чем-то вроде «последнего серьёзного экзамена старого типа» для ИИ.

Чем вообще интересен Humanity’s Last Exam

На мой взгляд, он выделяется сразу в нескольких плоскостях.

1. Он сознательно слишком сложный для текущих моделей. Большинство тестов ИИ уже постепенно «пробил потолок» — топовые модели набирают там близко к максимуму, и становится непонятно, где у них реальные ограничения. Humanity’s Last Exam, наоборот, придуман так, чтобы современные системы его не проходили идеально. Это новая планка: «давайте сделаем экзамен, до которого они пока не допрыгивают».

2. Он ближе к реальной человеческой экспертизе. В нём много задач по разным дисциплинам: математика, естественные науки, гуманитарные области, логика. Причём это не только тестики с вариантами, а вопросы, где нужно рассуждать и действительно понимать предмет. По сути, это попытка проверять ИИ не на уровне «хорошего студента», а на уровне людей, которые уже создают знания — исследователей и сильных специалистов.

3. Он встроен в дискуссию про риски и границы ИИ. Humanity’s Last Exam интересен не только тем, что по нему можно сравнивать «кто круче — модель А или модель Б». Он нужен, чтобы:

  • увидеть слабые места моделей,

  • оценить, насколько они приближаются к уровню экспертов,

  • понять, где им пока нельзя безоговорочно доверять.

Это уже не просто спорт «у кого процентов больше», а инструмент для разговоров о безопасности, регулировании и том, какие задачи можно отдавать ИИ.

Немного конспирологии

Я тут недавно разгонял конспирологию, что ИИ — это новый антихрист. Уверен, я далеко не первый. Каждый большой рывок в технологиях — печатный станок, радио, телевидение, интернет — всегда сопровождался криками, что «это конец света» и «знак апокалипсиса». Но с ИИ есть ощущение, что совпадений с библейскими образами подозрительно много.

В Библии антихрист — это не только один злодей в конце времён, а ещё и дух/система, которые:

  • подменяют Христа чем-то «вместо Него»,

  • отрицают Бога, пришедшего во плоти,

  • требуют поклонения себе и контроля над людьми.

Бенчмарк конца эпохи — Humanity’s Last Exam - 1

В Откровении описан образ, которому «дают дух», и он начинает говорить и влиять на людей. Сегодня это странно рифмуется с цифровыми аватарами и чат-ботами: неживой образ на экране, «оживлённый» моделью, разговаривает с миллионами людей и становится для них авторитетом.

Иоанн пишет не только об одном Антихристе, но и о «многих антихристах». Тут тебе и ChatGPT, и Gemini, и Claude, и даже Алиса. Вместе они легко складываются в такой рой «цифровых пророков», транслирующих один и тот же безличный технократический дух.

Пророк Даниил описывает «последние времена» так: «многие будут метаться туда и сюда, и умножится знание». В доинтернетную эпоху это звучало как загадка. Сегодня читается почти буквально: глобальная мобильность и постоянное перемещение; бесконечный поток трафика; экспоненциальный рост данных. Логичный спутник этого — необходимость некоего сверхбыстрого разума, который умеет управлять этим знанием. По сути, довольно точное описание роли ИИ.

Вместо вывода

Для меня Humanity’s Last Exam — это не «начало конца человечества», а начало более взрослого разговора про ИИ. Не только «сможет ли нейросеть решить олимпиаду», а «где у неё реальные пределы, чему её можно доверить, а где человек всё ещё незаменим».

Старые бенчмарки во многом уже перестали что-то говорить: сильные модели упираются в потолок, и графики с процентами превращаются в маркетинговый фон. HLE даёт новый запас высоты и честно показывает, что даже самые мощные системы пока далеки от того, чтобы стать универсальными «сверхразумами».

Будем надеяться, что HLE действительно поможет нам лучше понимать ИИ и развивать его в нужном нам, человекам, направлении. И, что очень важно, вовремя остановиться, не дожидаясь второго пришествия.

И, конечно, самое главное — не важно, насколько хорошо ИИ будет справляться с любыми задачами, он не должен стать заменителем мозгов, а остаться инструментом, который делает нас продуктивнее, а жизнь — интереснее и лучше.

Я всегда открыт и рад конструктивному обсуждению на любые темы: цифровая экология, работа с данными, Апокалипсис, котята. Если вам есть что добавить/возразить, то милости прошу в мой канал Econet.

Автор: meliksetyan

Источник

Rambler's Top100