Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту. grok.. grok. grok 4.20.. grok. grok 4.20. искусственный интеллект.. grok. grok 4.20. искусственный интеллект. Машинное обучение.

xAI официально вывела Grok 4.20 из статуса беты. Модель, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые ответы), Expert (глубокие рассуждения) и Heavy (мультиагентный режим с четырьмя параллельными агентами). Новинка достпна через веб-версию, мобильное приложение и специальный раздел в X.

Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту - 1

По данным Artificial Analysis Intelligence Index v4.0, рассуждающая версия Grok 4.20 набирает 48 баллов — это 8-е место среди всех протестированных моделей. Лидируют Gemini 3.1 Pro Preview и GPT-5.4 с 57 баллами, а прямой конкурент Claude Opus 4.6 набирает 53. При этом в отдельных тестах картина иная: на бенчмарке IFBench (следование инструкциям) Grok 4.20 занял первое место с результатом 83%, а на τ²-Bench Telecom (агентное использование инструментов) — второе с 97%, уступив лишь GLM-5.

Но главный козырь модели — фактическая достоверность. В тесте AA-Omniscience, который измеряет склонность модели выдумывать ответы, Grok 4.20 показал 78% (количество случаев, когда модель честно говорила, что не знает ответ) — абсолютный рекорд среди всех протестированных ИИ. Иными словами, Grok врёт реже всех, но думает не лучше всех.

Месяц бета-тестирования прошел с тремя обновлениями: Beta 2 от 3 марта улучшила следование инструкциям и добавила поддержку LaTeX, а билд 0309 от 10 марта стал стабильной версией для API. xAI обещает дальнейшие улучшения — в частности, кодинга для игр и интеграции с X в реальном времени.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник

Rambler's Top100