- BrainTools - https://www.braintools.ru -

Большая часть проверок эмоционального интеллекта [1] у LLM сосредоточена на коротких, аккуратно размеченных фразах. В реальности всё сложнее: люди говорят долго, отвлекаются, меняют тему, возвращаются к старым переживаниям. На такой дистанции модели начинают терять важные намёки, путают причины и следствия и редко выдерживают цельную линию поддержки. Авторы LongEmotion предлагают именно такой стресс‑тест — бенчмарк с длинными, шумными и эмоционально насыщенными сценариями.
Бенчмарк покрывает шесть задач, каждая проверяет свой аспект эмоционального интеллекта:
распознавание эмоций [3] в большом тексте, где полезный фрагмент утонул в контексте;
обнаружение «выбивающегося» по эмоции отрывка среди похожих;
ответы на вопросы по психологическим источникам;
длинный консультативный диалог из четырёх стадий с психологическими критериями оценки;
суммаризация эмоционально значимых аспектов клинических отчётов;
выражение эмоций: самооценка и длинный нарратив из пяти фаз.
Средняя длина входов достигает 8–12 тысяч токенов, а местами — существенно больше. Это не игрушечные реплики, а полноценные тексты, где важно удерживать дальние связи, не терять нюансы и внятно завершать мысль.
Чтобы помочь моделям не утонуть в длинном диалоге, авторы предложили два подхода.
Во‑первых, Retrieval‑Augmented Generation в необычном варианте: источником «извлечения» служит сам диалог и память [4] модели, без внешних баз знаний. Идея простая: не надо тянуть всё сразу — выделяй локально релевантные куски, работай с ними и не вноси лишний шум.
Во‑вторых, мультиагентная система CoEM. Это пятиступенчатый конвейер: разбиение текста, первичное ранжирование, обогащение эмоциональными и теоретическими сигналами (от отдельного помощника), повторное ранжирование и финальная генерация ответов ансамблем. Такой «оркестратор эмоций» помогает модели удерживать смысловую линию и тон, но делает это дозированно, без утечки готовых ответов.
В распознавании и обнаружении эмоций CoEM даёт самый заметный прирост: структурированное обогащение помогает выцеплять тонкие эмоциональные сигналы среди лишнего контента.
В задачах, где ответ жёстко привязан к исходному тексту (вопросы‑ответы, суммаризация), излишние «подсказки» могут вредить: лишний фон портит F1 и снижает согласие с источником.
В длинном консультативном диалоге неожиданно сильны Qwen‑3 8B и Llama‑3.1‑8B‑Instruct: они стабильно держат линию разговора, местами обходя GPT‑4o по средним баллам этапов. Пиковый прогресс заметен на завершающей стадии, где важны интеграция смысла и аккуратное закрытие сессии.
На генерации эмоциональных текстов многое решает «качество мудреца» в CoEM. Когда роль обогащающего ассистента исполняет сильная модель, итоговая речь получается связной, менее повторяющейся и богаче по эмоциональным деталям.
Отдельная линия — сравнение версий GPT. По сводным результатам расширенная версия GPT‑5 лучше рассуждает в чистых классификациях, но в вопросах‑ответах иногда «переписывает» по своему пониманию и теряет баллы к эталону. В диалоге GPT‑5 сильнее по теоретическим критериям терапии, однако звучит чуть менее эмпатично. GPT‑4o‑mini, напротив, местами даёт более человеческий тон. Это подчёркивает: эмоциональный интеллект — не только логика [5], но и стиль, забота о человеке и умение закрыть тему без резких углов.
Если у вас длинные чаты поддержки, стоит использовать «внутренний» RAG по истории диалога. Это снижает шум и помогает не терять главные нити.
Для классификаций и обнаружения аномальных эмоций — лучше CoEM: мультиагентное обогащение делает признаки заметнее.
Для QA и суммаризации следите за дозировкой обогащающих подсказок: слишком разговорчивый помощник перестраивает ответ под себя.
Модели по‑разному ведут себя на длинных входах: стабильность не всегда у «самой большой» версии. Тестируйте на своих диапазонах длины.
Авторы честно показывают, что автооценка ответов (LLM как судья) пусть и хорошо коррелирует с экспертами, но остаётся уязвимой к выбору модели‑оценщика. Дальше команда собирается расширять набор моделей, публиковать данные и уточнять методики. Практически это важный шаг к системной проверке «эмоциональной памяти» ИИ на длинных дистанциях.
💾 Код [7]
***
Если вам интересна тема ИИ, [8]подписывайтесь на мой Telegram‑канал [9] [10]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19620
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] эмоций: http://www.braintools.ru/article/9540
[3] эмоций: http://www.braintools.ru/article/9387
[4] память: http://www.braintools.ru/article/4140
[5] логика: http://www.braintools.ru/article/7640
[6] 📜 Оригинальная статья: https://arxiv.org/abs/2509.07403
[7] 💾 Код: https://github.com/LongEmotion/LongEmotion
[8] : https://t.me/+mP35nQPhgXZmZDYy
[9] подписывайтесь на мой Telegram‑канал: https://t.me/+vrosCtByOsE4NzVi
[10] : https://t.me/+9nDCqOqSLiM3NTVi
[11] Источник: https://habr.com/ru/articles/947954/?utm_source=habrahabr&utm_medium=rss&utm_campaign=947954
Нажмите здесь для печати.