- BrainTools - https://www.braintools.ru -

Grok 4.20 значительно отстает от Gemini и ChatGPT, но устанавливает новый рекорд по отсутствию галлюцинаций

Grok 4.20 значительно отстает от Gemini и ChatGPT, но устанавливает новый рекорд по отсутствию галлюцинаций - 1

В тестах производительности Grok 4.20 от xAI не может сравниться с лучшими ИИ, но демонстрирует меньше галлюцинаций, чем любая другая протестированная модель. По данным Artificial Analysis [1], Grok 4.20 Beta набирает 48 баллов по индексу интеллекта [2] с включенным логическим мышлением [3], что значительно меньше, чем у Gemini 3.1 Pro Preview и GPT-5.4 (57 баллов), но все же на 6 баллов лучше, чем у Grok 4.

Grok отстает от новейших моделей из ведущих лабораторий искусственного интеллекта по общей производительности в бенчмарках

Grok отстает от новейших моделей из ведущих лабораторий искусственного интеллекта по общей производительности в бенчмарках

xAI выпустила три варианта API [4]: с логическим выводом, без логического вывода и в многоагентном режиме. Модель поддерживает контекстное окно в 2 миллиона токенов и стоит 2 или 6 долларов за миллион токенов; это дешевле, чем Grok 4, и конкурентоспособно по цене среди западных моделей.

Главное достоинство Grok 4.20 – это, как ни странно [5], фактическая достоверность. В тесте AA Omniscience он показал 78-процентный уровень отсутствия галлюцинаций, что является рекордом, согласно данным Artificial Analysis. Тест измеряет, как часто модель выдумывает ответ вместо того, чтобы признать, что она не знает, а также оценивает способность запоминать факты. Grok 4.20 ошибался лишь примерно в одном случае из пяти, когда у него не было ответа.


Делегируйте часть рутинных задач вместе с BotHub! [6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник [8]

Автор: MrRjxrby

Источник [9]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27069

URLs in this post:

[1] Artificial Analysis: https://artificialanalysis.ai/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] мышлением: http://www.braintools.ru/thinking

[4] xAI выпустила три варианта API: https://docs.x.ai/developers/models?cluster=us-east-1#detailed-pricing-for-all-grok-models

[5] как ни странно: https://the-decoder.com/xai-says-grok-4-is-no-longer-searching-for-musks-views-before-it-answers/

[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GROK_DONT

[7] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[8] Источник: https://www.linkedin.com/pulse/grok-420-beta-released-artificial-analysis-deejc/

[9] Источник: https://habr.com/ru/companies/bothub/news/1009858/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1009858

www.BrainTools.ru

Rambler's Top100