Nvidia выпустила открытую модель PersonaPlex — голосовой ИИ, который одновременно слушает и говорит

Традиционные голосовые помощники последовательно запускают распознавание речи, языковые модели и синтез речи. Это позволяет настраивать голос и роль, но приводит к роботизированным разговорам с неестественными паузами. Более новые системы, такие как Moshi ^[1]от французской лаборатории искусственного интеллекта ^[2] Kyutai, делают разговоры более естественными, но привязывают пользователей к одному фиксированному голосу и роли.

По словам Nvidia, PersonaPlex ^[3] сочетает в себе лучшие черты обоих подходов: пользователи могут выбирать из разных голосов и определять любую роль с помощью текстовых подсказок, будь то мудрый помощник, сотрудник службы поддержки клиентов или вымышленный персонаж.

PersonaPlex одновременно слушает и говорит. Помимо речевого контента, модель изучает особенности разговорного поведения ^[4], например, когда нужно сделать паузу, когда прервать разговор и когда произнести подтверждающие звуки, такие как «угу». Она обновляет свое внутреннее состояние во время разговора пользователя и немедленно отправляет ответы.

Согласно техническому документу ^[5], в ходе тестов PersonaPlex показала задержку всего 0,07 секунды при переключении динамиков, по сравнению с 1,3 секундами у Google Gemini Live. Модель основана на Moshi и имеет 7 миллиардов параметров с частотой дискретизации звука 24 кГц.

Ключевое нововведение – это гибридная система подсказок, которая объединяет два входных параметра. Голосовая подсказка – короткий аудиофрагмент, фиксирующий характеристики голоса и манеру речи. И текстовая подсказка, которая описывает роль, биографию и контекст разговора. Оба параметра обрабатываются вместе для создания целостного образа персонажа.

Исследователи демонстрируют работу системы на нескольких примерах. В примере с обслуживанием клиентов в банке система проверяет личность клиента, объясняет причину отказа в транзакции, проявляет эмпатию и корректирует акцент. В сценарии с кабинетом врача она записывает данные пациента, такие как имя, дата рождения и информация об аллергии на лекарства.

Опубликованная модель была обучена на 7303 реальных разговорах из английского корпуса Фишера, общим объемом 1217 часов, с аннотациями, содержащими подсказки различного уровня детализации. Кроме того, команда сгенерировала 39322 диалога синтетического помощника и 105410 синтетических разговоров со службой поддержки клиентов. Транскрипты были получены с помощью Alibaba Qwen3-32B и OpenAI GPT-OSS-120B, а генерацией речи занималась Chatterbox TTS от Resemble AI.

Синтетические данные использовались для обучения ^[6] навыкам выполнения заданий и следования инструкциям, в то время как реальные записи воспроизводили естественные речевые паттерны.

Для оценки исследователи расширили существующий полнодуплексный тест, добавив новый тест для сервисного дуплекса, охватывающий 350 вопросов по обслуживанию клиентов в 50 сценариях ролей. PersonaPlex достиг среднего балла оценки естественности диалога 3,90, по сравнению с 3,72 у Gemini Live, 3,70 у Qwen 2.5 Omni и 3,11 у Moshi.

PersonaPlex превосходит такие устоявшиеся модели, как Gemini и Moshi, по естественности диалогов и задержке при переключении говорящих. Эта модель устанавливает новые стандарты для систем с открытым исходным кодом, особенно в отношении сходства голоса и реакции на прерывания со стороны пользователя — PersonaPlex превосходит такие устоявшиеся модели, как Gemini и Moshi, по естественности диалогов и задержке при переключении говорящих. Эта модель устанавливает новые стандарты для систем с открытым исходным кодом, особенно в отношении сходства голоса и реакции ^[7] на прерывания со стороны пользователя

PersonaPlex достигла показателя сходства говорящих 0,57 при клонировании голоса, в то время как у Gemini, Qwen и Moshi этот показатель был близок к нулю. Модель также показала 99,2% успешность плавной смены говорящих и безупречно обрабатывала прерывания со стороны пользователя. По словам исследователей, PersonaPlex – это первая известная им открытая модель, которая по естественности соответствует закрытым коммерческим системам.

PersonaPlex демонстрирует особенно высокие показатели успешности при смене говорящего и реагировании на прерывания

Обучение заняло шесть часов на восьми графических процессорах A100. Nvidia опубликовала код и веса модели на Hugging Face ^[8] и GitHub ^[9] под лицензией MIT и Nvidia Open Model License ^[10], разрешающей коммерческое использование без присвоения прав на результаты. На данный момент модель поддерживает только английский язык. Далее исследователи планируют заняться выравниванием после обучения и интеграцией инструментов.

Делегируйте часть рутинных задач вместе с BotHub! ^[11] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[12] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[13]

Автор: mefdayy

Источник ^[14]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24774

URLs in this post:

[1] Moshi : https://the-decoder.com/kyutai-releases-moshi-an-open-source-conversational-ai-assistant/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] PersonaPlex: https://research.nvidia.com/labs/adlr/personaplex/

[4] поведения: http://www.braintools.ru/article/9372

[5] Согласно техническому документу: https://research.nvidia.com/labs/adlr/files/personaplex/personaplex_preprint.pdf

[6] обучения: http://www.braintools.ru/article/5125

[7] реакции: http://www.braintools.ru/article/1549

[8] Hugging Face: https://huggingface.co/nvidia/personaplex-7b-v1

[9] GitHub: https://github.com/NVIDIA/personaplex

[10] лицензией MIT и Nvidia Open Model License: https://www.nvidia.com/en-us/agreements/enterprise-software/nvidia-open-model-license/

[11] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content%20=NVIDIA_HAS_RELEASED_PERSONAPLEX_AN_OPEN-SOURCE_VOICE_AI_MODEL_THAT_SIMULTANEOUSLY_LISTENS_AND_SPEAKS

[12] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[13] Источник: https://the-decoder.com/nvidia-open-sources-personaplex-a-voice-ai-that-listens-and-talks-at-the-same-time/

[14] Источник: https://habr.com/ru/companies/bothub/news/989240/?utm_source=habrahabr&utm_medium=rss&utm_campaign=989240

Нажмите здесь для печати.