- BrainTools - https://www.braintools.ru -

Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

xAI официально вывела Grok 4.20 из статуса беты. Модель, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые ответы), Expert (глубокие рассуждения) и Heavy (мультиагентный режим с четырьмя параллельными агентами). Новинка достпна через веб-версию, мобильное приложение и специальный раздел в X.

Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту - 1

По данным [1] Artificial Analysis Intelligence Index v4.0, рассуждающая версия Grok 4.20 набирает 48 баллов — это 8-е место среди всех протестированных моделей. Лидируют Gemini 3.1 Pro Preview и GPT-5.4 с 57 баллами, а прямой конкурент Claude Opus 4.6 набирает 53. При этом в отдельных тестах картина иная: на бенчмарке IFBench (следование инструкциям) Grok 4.20 занял первое место с результатом 83%, а на τ²-Bench Telecom (агентное использование инструментов) — второе с 97%, уступив лишь GLM-5.

Но главный козырь модели — фактическая достоверность. В тесте AA-Omniscience, который измеряет склонность модели выдумывать ответы, Grok 4.20 показал 78% (количество случаев, когда модель честно говорила, что не знает ответ) — абсолютный рекорд среди всех протестированных ИИ. Иными словами, Grok врёт реже всех, но думает не лучше всех.

Месяц бета-тестирования прошел с тремя обновлениями: Beta 2 от 3 марта улучшила следование инструкциям и добавила поддержку LaTeX, а билд 0309 от 10 марта стал стабильной версией для API. xAI обещает дальнейшие улучшения — в частности, кодинга для игр и интеграции с X в реальном времени.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть [2]“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник [3]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27365

URLs in this post:

[1] данным: https://artificialanalysis.ai/

[2] сбежавшая нейросеть: https://t.me/ai_exee

[3] Источник: https://habr.com/ru/news/1012054/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1012054

www.BrainTools.ru

Rambler's Top100