Grok 4.1 с эмоциональным интеллектом

В предыдущей статье я сравнивал такие модели, как GPT-5, Gemini 3 Pro, Claude Opus 4.5. Сегодня битвы не будет, но мы подробно рассмотрим одну недавно вышедшую модель – Grok 4.1. Разберемся в ее особенностях, протестируем, и я, исходя из своего (далеко не самого авторитетного) мнения, постараюсь оценить эту разработку команды Илона Маска.

Устраивайтесь поудобнее, я начинаю.

Grok 4.1 с эмоциональным интеллектом - 1

Подробнее о модели

Разумеется, прежде чем переходить к каким-либо тестам и выводам, нужно понять, с чем мы имеем дело.

Grok 4.1 – модель, которая, по заявлениям разработчиков и данным бенчмарков, значительно улучшила качество взаимодействия благодаря расширенным творческим, эмоциональным и кооперативным возможностям.

Всего существует две версии:

Grok 4.1 Thinking – версия, предназначенная для задач, требующих глубокого размышления.
Grok 4.1 Fast – версия для мгновенных ответов.

Некоторые особенности модели

Начнем с одного из ключевых параметров – контекста. Благодаря обучению ^[1] с подкреплением ^[2] на длинных последовательностях модель стабильно работает с контекстом до двух миллионов токенов.

Помимо огромного контекстного окна, xAI позаботилась и о качестве ответов. После дополнительной тренировки Grok 4.1 значительно снизил частоту галлюцинаций при обработке реальных запросов пользователей.

Особо стоит отметить уникальную особенность модели – работу с социальными настроениями и текущими событиями в реальном времени. Grok – единственный продукт, напрямую интегрированный с платформой X. Модель анализирует твиты и события, происходящие в данный момент.

И, наконец, эмоциональный интеллект ^[3]. Согласно бенчмаркам (которые мы рассмотрим далее), Grok точнее всех распознает человеческие эмоции ^[4] и проявляет эмпатию, обеспечивая более комфортное общение.

Бенчмарки

Не упомянуть такую достаточно важную вещь было бы ошибкой ^[5].

Grok 4.1 с эмоциональным интеллектом - 2

τ²-bench Telecom: 100% – лучший результат среди агентских моделей, ориентированных на инструменты. Модель значительно превосходит Grok 4, GPT-5 и Claude Sonnet 4.5.

Grok 4.1 с эмоциональным интеллектом - 3

Berkeley Function Calling v4: точность 72% при невысокой стоимости выводит Grok 4.1 Fast в лидеры по качеству обычного и рассуждающего tool-calling.

Grok 4.1 с эмоциональным интеллектом - 4

Text Arena проекта LMArena: Grok 4.1 Thinking и Fast заняли первое и второе места соответственно.

Grok 4.1 с эмоциональным интеллектом - 5

Модели лидируют в бенчмарке на навыки понимания, эмпатии, проницательности и межличностного взаимодействия.

Разумеется, эти результаты отражают ситуацию на момент выпуска модели. Сейчас уже представлены Gemini 3 Pro, Claude Opus 4.5 и GPT-5.2, которые по многим параметрам обошли Grok 4.1.

Проблемы, о которых говорят пользователи

В том, что я так поздно добрался до обзора этой модели, есть и свои плюсы. Заявления разработчиков и данные бенчмарков – это, конечно, хорошо, но спустя месяц появились и отзывы обычных пользователей, которые нашли недостатки.

Во-первых, Grok 4.1 плохо справляется с языками, отличными от английского, и сложными инструкциями. Это достаточно серьезная проблема для тех, кто не желает возиться с переводом своих запросов на английский.

Эксперты также отмечают, что, несмотря на значительные улучшения, модель уступает последним разработкам OpenAI и Google в задачах, требующих глубокого анализа и рассуждений. Та самая харизма, которую подчеркивали благодаря Илону Маску, иногда приводит к неточным или чрезмерно уверенным ответам.

Сомнительной можно считать и маркетинговую стратегию. Компания xAI позиционирует Grok 4.1 как искателя истины, однако на практике его выводы сильно зависят от данных платформы X, что может приводить к предвзятости.

Наконец, по ряду тестов Grok 4.1 уступает даже предыдущему поколению моделей от OpenAI (GPT-4) в задачах, требующих быстрого понимания визуальных материалов. Для универсального ассистента это критический недостаток.

Небольшое отступление

Чтобы воспользоваться моделью, я обращусь к агрегатору нейросетей BotHub, дающему доступ к большому количеству нейросетей – от генерации текста до транскрибации и создания видео. Кстати, по специальной ссылке ^[6] при регистрации можно получить 100 000 капсов для собственных экспериментов.

Тесты

Первый тест

Для начала почему бы не протестировать эмоциональность модели, которую так активно рекламировали? Хочется получить стихотворение с грустью, тоской и печалью.

Grok 4.1 с эмоциональным интеллектом - 6

Полученный стих меня не устроил. Модель действительно пытается выразить эмоции ^[7], но итоговый результат получился грубоватым. Читается тяжело, местами теряется нить повествования и атмосфера, которой здесь и так недостает.

Решив пойти дальше, я попытался доработать результат. Просьба сделать текст легче и добавить рифму немного улучшила ситуацию, но лишь до приемлемого уровня. Ничего выдающегося я не обнаружил.

Второй тест

Итак, добиться чего-то путного в генерации стихотворения не удалось. Перейдем к другому тесту, тоже связанному с творчеством ^[8]. Теперь я попрошу модель написать небольшой рассказ о человеке, потерявшемся в лесу. Пусть она попытается передать его тревогу и отчаянное желание выбраться.

Grok 4.1 с эмоциональным интеллектом - 7

Получившийся короткий рассказ модель представила довольно удачно. Передать эмоции ей удалось, хотя, на мой взгляд, местами даже чрезмерно. Но в целом результатом я доволен.

Третий тест

Достаточно нестандартный для меня тест. Посмотрим, как модель определит эмоции и намерения участников диалога.

Grok 4.1 с эмоциональным интеллектом - 8

Я ожидал худшего, но получилось вполне неплохо. Grok 4.1 подметил многие детали, передал, кажется, все возможное и сделал логичный вывод в финале. Конечно, истинную причину, зачем Марина искала Бориса, сказать сложно, поэтому выводы модели нельзя принимать за абсолютную истину, но выглядят они достаточно убедительно.

Четвертый тест

Отойдем от эмоциональных тестов и перейдем к чему-то более базовому – высшей математике ^[9]. Модель попробует решить несколько достаточно простых задач.

Grok 4.1 с эмоциональным интеллектом - 9

Из трех задач верно решена только одна. Не думаю, что один правильный ответ из трех – показатель хорошего уровня.

Пятый тест

Проверим возможности модели в программировании, попросив ее написать программу инженерного калькулятора.

Grok 4.1 с эмоциональным интеллектом - 10

Изначально я хотел провести серию тестов, как с математикой, но в итоге ограничился одним.

Работоспособная программа получилась только после трех уточняющих запросов, исправляющих ошибки. Это разочаровало: раньше я не сталкивался с тем, чтобы модель не справлялась с такой задачей с первого раза. Даже GigaChat показывал приемлемые результаты сразу. Впрочем, итоговый вариант визуально приятнее, чем у упомянутой модели. И главное – все функции работают корректно, что уже хорошо.

Итог

Можно однозначно сказать, что модель добилась определенных успехов в эмоциональном интеллекте. Однако во всех остальных аспектах Grok 4.1 не демонстрирует выдающихся результатов и не дотягивает до современных топовых моделей. При таком количестве пиара можно было бы постараться и сильнее, не правда ли, Илон Маск?

Спасибо за прочтение!

Автор: MrRjxrby

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23131

URLs in this post:

[1] обучению: http://www.braintools.ru/article/5125

[2] подкреплением: http://www.braintools.ru/article/5528

[3] интеллект: http://www.braintools.ru/article/7605

[4] эмоции: http://www.braintools.ru/article/9540

[5] ошибкой: http://www.braintools.ru/article/4192

[6] специальной ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[7] эмоции: http://www.braintools.ru/article/9387

[8] творчеством: http://www.braintools.ru/creation

[9] математике: http://www.braintools.ru/article/7620

[10] Источник: https://habr.com/ru/companies/bothub/articles/976298/?utm_source=habrahabr&utm_medium=rss&utm_campaign=976298

Нажмите здесь для печати.