- BrainTools - https://www.braintools.ru -
Один из последних проектов с открытым исходным кодом от LAION и Intel направлен на то, чтобы системы искусственного интеллекта [1] лучше понимали человеческие эмоции [2].

Пакет «Empathic Insight» включает в себя модели и наборы данных, предназначенные для анализа изображений лиц или аудиофайлов и оценки интенсивности 40 различных категорий эмоций [3]. Для лиц эмоции оцениваются по шкале от 0 до 7; для голосов система определяет наличие, слабую выраженность или сильную выраженность эмоций.
EmoNet, лежащая в основе этих моделей, опирается на таксономию из 40 категорий эмоций, разработанную на основе «Справочника по эмоциям» — важного источника в области психологии. Исследователи расширили стандартный список базовых эмоций, добавив когнитивные состояния, такие как концентрация и замешательство, физические состояния, такие как боль [4] и усталость, а также социальные эмоции, включая стыд и гордость. Они утверждают, что эмоции не поддаются универсальному прочтению — вместо этого мозг [5] конструирует их из ряда сигналов. В результате их модели работают с вероятностными оценками, а не с фиксированными ярлыками.
Для обучения [6] моделей команда использовала более 203 000 изображений лиц и 4692 аудиозаписи. Речевые данные взяты из набора данных Laion’s Got Talent [7], который включает более 5000 часов синтетических записей на английском, немецком, испанском и французском языках, созданных с помощью аудиомодели OpenAI GPT-4o.
Чтобы избежать проблем с конфиденциальностью и повысить демографическое разнообразие, LAION полностью полагался на синтетические данные. Изображения лиц были созданы с помощью моделей преобразования текста в изображение, таких как Midjourney и Flux, а затем программно скорректированы с учётом возраста, пола и этнической принадлежности. Все аудиозаписи были проверены экспертами в области психологии, и в набор данных вошли только те оценки, с которыми согласились три независимых рецензента.
По данным LAION, модели Empathic Insight превосходят существующих конкурентов по результатам тестов. В тесте EmoNet Face HQ модель Empathic Insight Face показала более высокую корреляцию с оценками экспертов-людей, чем Gemini 2.5 Pro или API с закрытым исходным кодом, такие как Hume AI. Ключевым показателем было то, насколько оценки ИИ совпадали с оценками специалистов в области психологии.
Исследователи также сообщают о впечатляющих результатах в области распознавания эмоций в речи. Модель Empathic Insight Voice показала лучшие результаты, чем существующие аудиомодели, в тесте EmoNet Voice Benchmark, правильно определив все 40 категорий эмоций. Команда экспериментировала с различными размерами моделей и методами обработки звука, чтобы оптимизировать результаты.
Помимо распознавания эмоций, LAION разработала BUD-E Whisper [8], улучшенную версию модели Whisper от OpenAI. В то время как Whisper преобразует речь в текст, BUD-E Whisper добавляет структурированные описания эмоционального тона, распознаёт голосовые всплески, такие как смех и вздохи, и оценивает характеристики говорящего, такие как возраст и пол.
Все модели EmoNet доступны по лицензии Creative Commons (для моделей) и Apache 2.0 (для кода). Наборы данных и модели можно скачать с Hugging Face. Обе модели Empathic Insight доступны в версиях Small и Large на Hugging Face [9], что делает их доступными для различных сценариев использования и аппаратных требований.
Intel поддерживает проект с 2021 года в рамках своей стратегии в области ИИ с открытым исходным кодом, уделяя особое внимание [10] оптимизации моделей для оборудования Intel.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News [11].
Источник [12]
Автор: mefdayy
Источник [13]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/16450
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] эмоции: http://www.braintools.ru/article/9540
[3] эмоций: http://www.braintools.ru/article/9387
[4] боль: http://www.braintools.ru/article/9901
[5] мозг: http://www.braintools.ru/parts-of-the-brain
[6] обучения: http://www.braintools.ru/article/5125
[7] набора данных Laion’s Got Talent: https://huggingface.co/datasets/laion/laions_got_talent_raw
[8] BUD-E Whisper: https://huggingface.co/laion/BUD-E-Whisper
[9] Hugging Face: https://huggingface.co/laion
[10] внимание: http://www.braintools.ru/article/7595
[11] BotHub AI News: https://t.me/bothub
[12] Источник: https://the-decoder.com/laion-and-intel-introduce-tools-that-help-ai-gauge-the-intensity-of-40-distinct-emotions/
[13] Источник: https://habr.com/ru/companies/bothub/news/920356/?utm_source=habrahabr&utm_medium=rss&utm_campaign=920356
Нажмите здесь для печати.