Grok 4.20 значительно отстает от Gemini и ChatGPT, но устанавливает новый рекорд по отсутствию галлюцинаций. ai.. ai. chatgpt.. ai. chatgpt. gemini.. ai. chatgpt. gemini. grok.. ai. chatgpt. gemini. grok. Блог компании BotHub.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации. галлюцинации ии.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации. галлюцинации ии. ИИ.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации. галлюцинации ии. ИИ. искусственный интеллект.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации. галлюцинации ии. ИИ. искусственный интеллект. Контент и копирайтинг.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации. галлюцинации ии. ИИ. искусственный интеллект. Контент и копирайтинг. научно-популярное.. ai. chatgpt. gemini. grok. Блог компании BotHub. Будущее здесь. галлюцинации. галлюцинации ии. ИИ. искусственный интеллект. Контент и копирайтинг. научно-популярное. нейросеть.
Grok 4.20 значительно отстает от Gemini и ChatGPT, но устанавливает новый рекорд по отсутствию галлюцинаций - 1

В тестах производительности Grok 4.20 от xAI не может сравниться с лучшими ИИ, но демонстрирует меньше галлюцинаций, чем любая другая протестированная модель. По данным Artificial Analysis, Grok 4.20 Beta набирает 48 баллов по индексу интеллекта с включенным логическим мышлением, что значительно меньше, чем у Gemini 3.1 Pro Preview и GPT-5.4 (57 баллов), но все же на 6 баллов лучше, чем у Grok 4.

Grok отстает от новейших моделей из ведущих лабораторий искусственного интеллекта по общей производительности в бенчмарках
Grok отстает от новейших моделей из ведущих лабораторий искусственного интеллекта по общей производительности в бенчмарках

xAI выпустила три варианта API: с логическим выводом, без логического вывода и в многоагентном режиме. Модель поддерживает контекстное окно в 2 миллиона токенов и стоит 2 или 6 долларов за миллион токенов; это дешевле, чем Grok 4, и конкурентоспособно по цене среди западных моделей.

Главное достоинство Grok 4.20 – это, как ни странно, фактическая достоверность. В тесте AA Omniscience он показал 78-процентный уровень отсутствия галлюцинаций, что является рекордом, согласно данным Artificial Analysis. Тест измеряет, как часто модель выдумывает ответ вместо того, чтобы признать, что она не знает, а также оценивает способность запоминать факты. Grok 4.20 ошибался лишь примерно в одном случае из пяти, когда у него не было ответа.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Rambler's Top100