Grok 4 — «AGI у нас дома» или просто хайп?

Как известно, вчера вышла новая итерация ИИ от xAI — Grok 4.
Пока в техсообществе считалось хорошим тоном нахваливать Claude Opus, немного — GPT‑4o, и снисходительно хихикать над творением Илона Маска, Grok ворвался и внезапно взорвал танцпол. По крайней мере — в бенчмарках.

Humanity’s Last Exam

Grok 4 и особенно Grok 4 Heavy обошли ближайших конкурентов — в том числе Gemini 1.5/2.5 Pro — с солидным отрывом.

Что это такое: Humanity’s Last Exam — это один из самых амбициозных и по-настоящему сложных бенчмарков для оценки уровня искусственного интеллекта ^[1], приближённого к человеческому мышлению ^[2]. Его невозможно пройти просто доставая информации из интернета или памяти ^[3] без настоящего логического мышления. К этому экзамену нельзя заранее подготвиться.

Название является шуткой обыгрывающей то, что если ИИ его пройдёт – то человечество больше не нужно. Или не совсем шуткой. Когда ИИ достигнет в нём результата близкого к 100% – что это? Правильно, AGI.

Как он устроен: HLE включает в себя вопросы из реальных школьных, университетских и олимпиадных тестов, которые требуют логики, интуиции ^[4], обобщения и многоступенчатого рассуждения. Чтобы модели нельзя было натренировать, тест изолирован от «натаскивания», как это бывает с популярными экзаменами вроде SAT, GRE и т. д.

Почему это важно для AGI: Если ИИ хорошо справляется с HLE — это признак приближения к General Intelligence, а не просто хорошо адаптированный к тесту fine‑tuned болтун. В отличие от стандартных бенчмарков, HLE проверяет глубину понимания, а не натренированность на датасете.

ARC-AGI

В этом тесте Grok 4 тоже опередил всех. И да, он делает это без цены в $0.30 за токен.

Что это такое: ARC-AGI (или ARC-Challenge) — это бенчмарк из серии Abstraction and Reasoning Corpus, разработанный для оценки способности ИИ к абстрактному мышлению, переносу знаний и решению задач без обучения ^[5] на примерах.

Как он устроен: Каждая задача — это набор input‑output примеров: ИИ видит лишь несколько пар «вход‑выход», а затем даётся новый «вход», к которому нужно придумать правильный «выход». Инструкций и пояснений нет. Всё нужно понять из примеров.

Задачи выглядят как простые пиксельные матрицы (обычно 2D‑сетки), но логика ^[6] за ними часто нетривиальна: трансформации, паттерны, правила симметрии ^[7], циклы, исключения и пр.

Почему это важно для AGI: Это не то, чему можно просто обучиться на большом корпусе текста — модель должна догадаться до правила. ARC-AGI специально разработан так, чтобы даже state-of-the-art модели не могли натренироваться на похожих задачах. ARC-AGI оценивает универсальность мышления, способность к обобщению, аналогичную человеческому понятию “сообразительности”.

Vending-Bench

Grok 4 оказался неожиданно хорош не только в экзаменах, но и в управлении — пусть и виртуальным — бизнесом.

Что это такое: в отличие от прошлых бенчмарков, этот разработан для тестирования не однократного успеха, а способности ИИ‑агентов сохранять стабильность решения интеллектуальных задач в автономном режиме. В это сценарии ИИ управляет виртуальным автоматом — принимает заказ, устанавливает цены, следит за запасами, пополняет их, оплачивает ежедневные сборы. Обычные LLM отлично справляются с короткими заданиями, но рано или поздно «срываются»: забывают ^[8] сделать заказ, неправильно интерпретируют статус, входят в бессмысленные циклы. Модели нужно планировать, выбирать нужные инструменты (API, читать мануалы, искать, делаь финрасчёты загодя) — т. е. выступать не пассивным объектом взаимодействия, а по‑настоящему активным субъектом.

Почему это важно для AGI: Большинство современных моделей умеют решать задачи длиной в один или несколько запросов. Но теоретический AGI должен уметь действовать автономно в долгий срок, обрабатывать ввод, делать выбор, корректировать поведение ^[9], не зацикливаться и не сбиваться с фокуса своей задачи.

Vending‑Bench — это попытка симулировать автономную жизнь ИИ в узком, но всё же сценарии: не просто отвечать на промпты извне, а вести бизнес.

Другие бенчи

Какой тест не возьми - везде Grok 4 в лидерах — Какой тест не возьми – везде Grok 4 в лидерах

GPQA (Graduate-Level Physics QA)

Вопросы уровня аспирантуры по физике. Не списать, не нагуглить. Grok справляется.

AIME25 (American Invitational Mathematics Exam, 2025)

Олимпиада по математике ^[10] для школьников в США. Сложно, нестандартно. Grok на высоте.

LCB (MATH Labeled Chain-of-Thought Benchmark)

Математические задачи с обязательной цепочкой рассуждений. Проверяется не просто ответ, а логика рассуждения. Grok держится лучше GPT‑4o и Claude.

HMMT25 (Harvard-MIT Math Tournament, 2025)

Математические задачи олимпиадного уровня из ежегодного турнира для старшеклассников. Проверяют комбинаторику, теорию чисел и нестандартное мышление.

USAMO25 (USA Mathematical Olympiad, 2025)

Топовые математические олимпиады — с акцентом на доказательства, теорию чисел, комбинаторику. Здесь не выживают просто убедительно жонглирующие словами LLM. Grok снова в топе.

Вместо выводов

Если вы ещё вчера смеялись над “Грокгейтом” в X* (твиттор) – мол, что можно ожидать от модели, которую пользователи соцсети два дня назад развели (джейлбрекнули) на политический троллинг в самом кринжовом его проявлении — то я бы пересмотрел позицию.

Grok 4 — «AGI у нас дома» или просто хайп? - 5

Стоит ли платить 30$ (на целых 10$ больше, чем в большинстве мейнстримных моделей) в месяц Илону за самые красивые бенчи? А 300$ (!) за Grok 4 Heavy, а ?
Если вы просто общаетесь с ИИ ради эмпатии и сеансов психоанализа — нет, GPT‑4o и Claude всё ещё милее.
Однако впервые платить 30 баксов в месяц Илону получило веское обоснование.

Дорого? Да. Особенно учитывая, что у большинства из нас и так подписка минимум 20$ на ChatGPT и/или Claude.
Любопытно? Очень.
AGI это? Пока нет, выдыхаем.

P. S. Бесплатного тира у Grok 4 нет. Заход в «AGI для народа» — строго по прайсу.

Автор: GiantLynx

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17200

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] мышлению: http://www.braintools.ru/thinking

[3] памяти: http://www.braintools.ru/article/4140

[4] интуиции: http://www.braintools.ru/article/6929

[5] обучения: http://www.braintools.ru/article/5125

[6] логика: http://www.braintools.ru/article/7640

[7] симметрии: http://www.braintools.ru/article/3088

[8] забывают: http://www.braintools.ru/article/333

[9] поведение: http://www.braintools.ru/article/9372

[10] математике: http://www.braintools.ru/article/7620

[11] Источник: https://habr.com/ru/news/926928/?utm_source=habrahabr&utm_medium=rss&utm_campaign=926928

Нажмите здесь для печати.