- BrainTools - https://www.braintools.ru -

Исследователи НИУ ВШЭ — Санкт-Петербург Анастасия Колмогорова и Елизавета Куликова разработали [1] эмоциональный словарь, предназначенный для обучения [2] искусственного интеллекта [3].
Ранее основным инструментом систематизации языковых знаний были словари, однако нейросетям требуется принципиально иная форма представления информации. Этот датасет представляет собой новую форму лингвистического справочника, адаптированного к цифровой эпохе, отмечают разработчики.
«Большие языковые модели могут улавливать скрытые паттерны, которые мы, может быть, чувствуем на подсознательном уровне, но не можем формализовать. Наш датасет — это грамотно организованные, хорошо размеченные данные, приспособленные для работы с нейросетями. То, что раньше делал лингвист на основе словаря, теперь делают вычислительные модели, только их словарь должен быть организован по-другому. Вместо пары “слово — толкование2 используется пара “текстовый фрагмент — эмоциональная метка”», — объясняет заведующая Лабораторией языковой конвергенции НИУ ВШЭ — Санкт-Петербург Анастасия Колмогорова.
В датасет вошли 909 фрагментов видео общей продолжительностью 173 минуты. Каждый фрагмент разметчики оценили по шести основным эмоциям [4]. При этом использовались четыре различных формата: полный видеофрагмент, только звук, только текст и только видео без звука. Затем исследователи сравнили, насколько мнения участников эксперимента совпадали при оценке одних и тех же эмоциональных фрагментов. Оказалось, что чаще всего люди сходились во мнениях при чтении обычного письменного текста. Когда же респонденты слушали только речь, их мнения расходились сильнее. Наихудший результат оказался у немого видео.
Детальный анализ показал, что разные эмоции [5] по-разному проявляются в различных модальностях. Радость и удивление лучше всего распознаются через звучащую речь, где интонация играет важную роль. Злость, напротив, точнее всего идентифицируется по тексту: в 72,9% случаев по сравнению с 67,4% для аудио. Страх [6] оказался наиболее вербальной эмоцией: он распознается по тексту и аудио в 87% случаев.

На основе эксперимента учёные создали датасет, который уже используется на практике.
«Недавно мы завершили проект для Владимиро-Суздальского музейного заповедника, где анализировали отзывы посетителей со всех платформ с помощью большой языковой модели. Раньше для такого анализа нужны были огромные размеченные выборки и мощные вычислительные ресурсы для обучения модели с нуля. Сейчас достаточно показать нейросети несколько десятков качественных образцов из нашего датасета», — рассказывает Анастасия Колмогорова.
Другой проект с использованием датасета — создание эмпатичного чат-бота для Эрмитажа.
«Мы стремимся к такому виртуальному помощнику, который сможет определять эмоции в сообщениях пользователя. Если человек радуется — бот разделит его радость, если переживает — проявит сочувствие», — описывает перспективы применения заведующая лабораторией.
Датасет также доступен для исследовательского сообщества и продолжает развиваться. Команда планирует расширять коллекцию, тестировать новые подходы к обучению моделей и изучать работу со смешанными эмоциями. Результаты исследования опубликованы [7]в журнале «Вопросы лексикографии».
Автор: AnnieBronson
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18873
URLs in this post:
[1] разработали: https://spb.hse.ru/news/1079005865.html
[2] обучения: http://www.braintools.ru/article/5125
[3] интеллекта: http://www.braintools.ru/article/7605
[4] эмоциям: http://www.braintools.ru/article/9540
[5] эмоции: http://www.braintools.ru/article/9387
[6] Страх: http://www.braintools.ru/article/6134
[7] опубликованы : https://journals.tsu.ru/lex/&journal_page=archive&id=2622&article_id=53429
[8] Источник: https://habr.com/ru/news/941954/?utm_source=habrahabr&utm_medium=rss&utm_campaign=941954
Нажмите здесь для печати.