- BrainTools - https://www.braintools.ru -

Вышел Grok 4.1 от xAI

Компания xAI официально объявила [1] о выпуске Grok 4.1. По данным компании, Grok 4.1 значительно улучшает качество взаимодействия за счёт расширенных творческих, эмоциональных и совместных возможностей. Модель стала лучше воспринимать тонкие намерения пользователя, придерживается более целостного стиля общения и сохраняет «личность», при этом не теряя точности и надёжности, характерных для предыдущих поколений Grok.

Для достижения этих результатов xAI применила масштабную инфраструктуру обучения [2] с подкреплением [3], ранее использовавшуюся для Grok 4, и оптимизировала стиль, характер, полезность и выравнивание новой версии. Компания также разработала методы, позволяющие использовать передовые агентные модели рассуждений в качестве моделей вознаграждения, что обеспечивает автоматическую оценку и улучшение ответов в большом масштабе.

Тихий запуск и метрики качества

С 1 по 14 ноября 2025 года xAI проводила тихий запуск предварительных сборок Grok 4.1, постепенно увеличивая долю реального трафика, перенаправляемого на новую модель. В течение этого периода компания проводила непрерывные слепые попарные сравнения.

Результаты показали, что пользователи предпочитали Grok 4.1 в 64,78% случаев по сравнению с предыдущей моделью, работавшей в продакшене.

Вышел Grok 4.1 от xAI - 1

Новые лидирующие позиции

Grok 4.1 установил новый ориентир в слепых человеческих оценках. В Text Arena проекта LMArena версия Thinking (quasarflux) получила рейтинг 1483 Elo и заняла первое место, опередив ближайшую не-xAI модель на 31 балл. Нерассуждающий режим (tensor) также показал высокие результаты — второе место с 1465 Elo, превзойдя рассуждающие режимы всех конкурентов в открытом рейтинге.

По сравнению с Grok 4, занимавшей 33-е место, прогресс оказался значительным.

Вышел Grok 4.1 от xAI - 2

Эмоциональный интеллект [4] и творческие способности

Для оценки эмоционального интеллекта модель протестировали на EQ-Bench3, где измеряются навыки понимания, эмпатии, проницательности и межличностного взаимодействия. Оценки проводились на официальном наборе данных с использованием стандартных параметров.

Вышел Grok 4.1 от xAI - 3

Дополнительно xAI проверила Grok 4.1 на бенчмарке Creative Writing v3, который измеряет качество творческого письма на 32 разнообразных литературных запросах через три итерации.

Вышел Grok 4.1 от xAI - 4

Снижение количества галлюцинаций

Компания также уделила внимание [5] снижению фактических ошибок в быстрых режимах, где глубина рассуждений ограничена. После пост-тренировки у Grok 4.1 заметно уменьшилась частота галлюцинаций на выборке реальных запросов пользователей.

Дополнительно модель прошла оценку по FActScore — публичному бенчмарку из 500 биографических вопросов.

Вышел Grok 4.1 от xAI - 5

Русскоязычное сообщество про AI в разработке

Вышел Grok 4.1 от xAI - 6

Друзья! Эту новость подготовила команда ТГК «AI for Devs [6]» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [6], чтобы быть в курсе и ничего не упустить!

Автор: python_leader

Источник [7]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22041

URLs in this post:

[1] официально объявила: https://x.ai/news/grok-4-1

[2] обучения: http://www.braintools.ru/article/5125

[3] подкреплением: http://www.braintools.ru/article/5528

[4] интеллект: http://www.braintools.ru/article/7605

[5] внимание: http://www.braintools.ru/article/7595

[6] AI for Devs: https://t.me/+CcSlLkrVFl4zNDMy

[7] Источник: https://habr.com/ru/news/967446/?utm_source=habrahabr&utm_medium=rss&utm_campaign=967446

www.BrainTools.ru

Rambler's Top100