В эпоху чат-ботов и голосовых помощников ИИ всё чаще становится собеседником человека. Но чтобы стать по-настоящему полезным в коммуникации, он должен не только понимать слова — но и улавливать эмоции, интонации, паузы и даже жесты. Именно это и пытается решить задача Emotion Recognition in Conversations (ERC).
В недавней работе “A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations” исследователи предложили архитектуру, которая объединяет мультимодальные сигналы (текст, аудио, видео) в единую модель, способную «читать между строк» в прямом смысле. Рассказываем, как это устроено и почему это важно.

Что такое ERC и зачем оно нужно
Emotion Recognition in Conversations (ERC) — это задача анализа диалогов с целью определения эмоционального состояния участников. В отличие от классификации эмоций в одиночных высказываниях, ERC даёт возможность учитывать следующие факторы:
-
Контекст диалога (предыдущие фразы и их эмоциональный фон);
-
Социальные роли участников (кто говорит, кто слушает, кто конфликтует);
-
Мультимодальные сигналы — голос, текст, мимика, жесты.
Для человека это интуитивно. Например, фраза «Да, всё нормально» может звучать совершенно по-разному в зависимости от интонации и невербальных сигналов. Большинство моделей игнорируют эти нюансы, анализируя только текст. В новой архитектуре это исправлено.
Существующие решения сталкивались с тремя ключевыми вызовами:
1. Ограниченная интеграция модальностей
Многие модели просто складывают признаки из разных источников (например, текстовые эмбеддинги и аудио-фичи), теряя нюансы взаимодействий. Такой подход аналогичен тому, как если бы вы читали книгу, слушали её озвучку и смотрели фильм по мотивам одновременно, но не пытаясь связать элементы между собой.
2. Статические веса модальностей
Вес каждой модальности (например, насколько важен голос по сравнению с текстом) часто задавался вручную или обучался на тренировочном наборе данных. Это не учитывает, что в разных ситуациях приоритеты меняются:
-
В шутке доминирует интонация,
-
В конфликте — лексика,
-
В смущении — невербальные сигналы (паузы, взгляды).
3. Недостаток обобщающей способности
Модели переобучались на конкретных датасетах (например, только на актерских диалогах), теряя эффективность в реальных сценариях, где эмоции выражены более сдержанно и не соответствуют театральным шаблонам.
Авторы SDT решили не просто объединить модальности, а создать систему, которая адаптивно реагирует на контекст и учится на собственных предсказаниях. Их подход можно сравнить с тем, как человек анализирует эмоции в разговоре: сначала он выделяет ключевые сигналы (например, слова, голос, жесты), затем оценивает их значимость в текущей ситуации, а потом «прокручивает» диалог в голове, чтобы уточнить свою интерпретацию.
Что предложили авторы SDT
Модель SDT (Self-Distilled Transformer) решает три задачи:
1. Интеграция модальностей через трансформеры
Модель использует два типа трансформеров:
-
Интра-модальные: анализируют зависимости внутри каждой модальности (например, как слова в предложении связаны друг с другом).
-
Интер-модальные: учатся находить связи между разными модальностями (как тон голоса коррелирует с текстом).
Пример: это похоже на то, как человек одновременно слушает слова, следит за интонацией и замечает, как собеседник нервно постукивает пальцами.
2. Гейтовая фузия (Gated Fusion)
Чтобы гибко учитывать значимость модальностей, используется иерархическая гейтовая система:
-
Первый уровень: взвешивание модальностей в рамках одной реплики;
-
Второй уровень: учёт временного контекста в диалоге.
Пример: если интонация явно саркастичная, модель снижает значимость аудио и усиливает анализ текста и контекста.
Как работает гейтовая фузия?
Гейт (gate) — это механизм, который вычисляет веса модальностей на основе текущего состояния модели. Формула:
σ — сигмоидная функция
W и b — обучаемые параметры
h_text, h_audio, h_video — эмбеддинги модальностей
Веса g затем используются для взвешивания вклада каждой модальности в финальный вектор.
3. Самообучение через дистилляцию (Self-Distillation)
Этот этап — ключ к обобщающей способности модели.
-
Модель обучается не только на «жёстких» метках (например, «гнев»), но и на «мягких» — вероятностях эмоций, предсказанных самой собой.
-
Это похоже на то, как студент, решая задачу, сначала делает черновик (мягкий ответ), а потом уточняет его (жёсткий ответ).
Результат: модель лучше справляется с неоднозначными случаями, где эмоция выражена слабо или противоречива.
Как работает дистилляция?
-
На первом этапе модель обучается на размеченных данных.
-
На втором этапе она предсказывает вероятности эмоций для тренировочного набора («мягкие» метки).
-
Затем модель дообучается на тех же данных, но с целевой функцией, которая штрафует за расхождение с «мягкими» метками.
-
Это снижает переобучение и улучшает обобщение.
Эти элементы в совокупности позволяют модели не просто «суммировать» данные, а строить сложные ассоциации между модальностями, адаптируясь к особенностям диалога.

Авторы проверили свою модель на двух популярных датасетах:
-
IEMOCAP: Разговоры актёров с размеченными эмоциями (гнев, радость, грусть и др.).
-
MELD: Диалоги из сериала Friends с шестью эмоциональными классами.
Детали экспериментов:
-
Метрики: точность (Accuracy) и F1-мера (особенно важна для несбалансированных выборок).
-
Базовые модели: для сравнения использовались SOTA-решения на момент публикации, включая MOSEUM и CMN.
-
Гиперпараметры: обучение проводилось с оптимизатором AdamW, скоростью обучения 3e-5, batch_size=16.
Результаты
|
Модель |
Accuracy (IEMOCAP) |
F1 (MELD) |
|
SOTA (prev) |
72.1% |
68.4% |
|
SDT (proposed) |
75.8% |
71.2% |
Рост на 3-4% может показаться небольшим, но в задачах распознавания эмоций это значительный шаг вперёд.
Ограничения и открытые вопросы
-
Вычислительная сложность: трансформеры требуют ресурсов. Авторы не уточнили, насколько модель масштабируема для реального времени.
-
Зависимость от качества данных: если в видео плохое освещение или в аудио шум, эффективность падает.
-
Культурные различия: модель обучалась на западных датасетах. Будет ли она работать с эмоциональными выражениями людей других культур?
Предложения для будущих исследований
-
Адаптация к другим языкам: проверка модели на китайском, японском или арабском корпусах.
-
Интеграция биометрии: добавление данных с носимых устройств (пульс, потоотделение) для повышения точности.
-
Уменьшение вычислительной нагрузки: использование методов вроде pruning или quantization для оптимизации модели под мобильные устройства.
Где это может применяться?
-
Виртуальные ассистенты: чат-боты, которые «чувствуют», когда пользователь раздражён.
-
Психотерапия: анализ эмоций пациентов в сессиях онлайн-терапии.
-
Маркетинг: оценка реакции аудитории на рекламу через видеозаписи.
-
Образование: обнаружение стресса у студентов во время онлайн-экзаменов.
Вывод. Шаг к эмпатичному ИИ
Статья демонстрирует, что мультимодальность — необходимость для создания «эмоционально умного» ИИ. Методы вроде гейтовой фузии и дистилляции открывают дорогу к моделям, которые не просто распознают эмоции, но понимают их контекст. Однако путь к настоящей эмпатии еще долгий: нужно решить проблемы масштабируемости, культурной адаптации и надежности в шумных условиях.
А пока остается один вопрос: если ИИ научится чувствовать эмоции, сможет ли он научить нас им?
Статью подготовил Быков Никита, магистрант AI Talent Hub.
Автор: ai-talent


