Nvidia выпустила открытую модель PersonaPlex — голосовой ИИ, который одновременно слушает и говорит. Gemini Live.. Gemini Live. Moshi.. Gemini Live. Moshi. nvidia.. Gemini Live. Moshi. nvidia. PersonaPlex.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub. голосовой ии.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub. голосовой ии. голосовой помощник.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub. голосовой ии. голосовой помощник. Голосовые интерфейсы.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub. голосовой ии. голосовой помощник. Голосовые интерфейсы. ИИ.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub. голосовой ии. голосовой помощник. Голосовые интерфейсы. ИИ. ии и машинное обучение.. Gemini Live. Moshi. nvidia. PersonaPlex. Блог компании BotHub. голосовой ии. голосовой помощник. Голосовые интерфейсы. ИИ. ии и машинное обучение. искусственный интеллект.

Традиционные голосовые помощники последовательно запускают распознавание речи, языковые модели и синтез речи. Это позволяет настраивать голос и роль, но приводит к роботизированным разговорам с неестественными паузами. Более новые системы, такие как Moshi от французской лаборатории искусственного интеллекта Kyutai, делают разговоры более естественными, но привязывают пользователей к одному фиксированному голосу и роли.

Nvidia выпустила открытую модель PersonaPlex — голосовой ИИ, который одновременно слушает и говорит - 1

По словам Nvidia, PersonaPlex сочетает в себе лучшие черты обоих подходов: пользователи могут выбирать из разных голосов и определять любую роль с помощью текстовых подсказок, будь то мудрый помощник, сотрудник службы поддержки клиентов или вымышленный персонаж.

PersonaPlex одновременно слушает и говорит. Помимо речевого контента, модель изучает особенности разговорного поведения, например, когда нужно сделать паузу, когда прервать разговор и когда произнести подтверждающие звуки, такие как «угу». Она обновляет свое внутреннее состояние во время разговора пользователя и немедленно отправляет ответы.

Согласно техническому документу, в ходе тестов PersonaPlex показала задержку всего 0,07 секунды при переключении динамиков, по сравнению с 1,3 секундами у Google Gemini Live. Модель основана на Moshi и имеет 7 миллиардов параметров с частотой дискретизации звука 24 кГц.

Ключевое нововведение – это гибридная система подсказок, которая объединяет два входных параметра. Голосовая подсказка – короткий аудиофрагмент, фиксирующий характеристики голоса и манеру речи. И текстовая подсказка, которая описывает роль, биографию и контекст разговора. Оба параметра обрабатываются вместе для создания целостного образа персонажа.

Исследователи демонстрируют работу системы на нескольких примерах. В примере с обслуживанием клиентов в банке система проверяет личность клиента, объясняет причину отказа в транзакции, проявляет эмпатию и корректирует акцент. В сценарии с кабинетом врача она записывает данные пациента, такие как имя, дата рождения и информация об аллергии на лекарства.

Опубликованная модель была обучена на 7303 реальных разговорах из английского корпуса Фишера, общим объемом 1217 часов, с аннотациями, содержащими подсказки различного уровня детализации. Кроме того, команда сгенерировала 39322 диалога синтетического помощника и 105410 синтетических разговоров со службой поддержки клиентов. Транскрипты были получены с помощью Alibaba Qwen3-32B и OpenAI GPT-OSS-120B, а генерацией речи занималась Chatterbox TTS от Resemble AI.

Синтетические данные использовались для обучения навыкам выполнения заданий и следования инструкциям, в то время как реальные записи воспроизводили естественные речевые паттерны.

Для оценки исследователи расширили существующий полнодуплексный тест, добавив новый тест для сервисного дуплекса, охватывающий 350 вопросов по обслуживанию клиентов в 50 сценариях ролей. PersonaPlex достиг среднего балла оценки естественности диалога 3,90, по сравнению с 3,72 у Gemini Live, 3,70 у Qwen 2.5 Omni и 3,11 у Moshi.

PersonaPlex превосходит такие устоявшиеся модели, как Gemini и Moshi, по естественности диалогов и задержке при переключении говорящих. Эта модель устанавливает новые стандарты для систем с открытым исходным кодом, особенно в отношении сходства голоса и реакции на прерывания со стороны пользователя

PersonaPlex достигла показателя сходства говорящих 0,57 при клонировании голоса, в то время как у Gemini, Qwen и Moshi этот показатель был близок к нулю. Модель также показала 99,2% успешность плавной смены говорящих и безупречно обрабатывала прерывания со стороны пользователя. По словам исследователей, PersonaPlex – это первая известная им открытая модель, которая по естественности соответствует закрытым коммерческим системам.

PersonaPlex демонстрирует особенно высокие показатели успешности при смене говорящего и реагировании на прерывания

Обучение заняло шесть часов на восьми графических процессорах A100. Nvidia опубликовала код и веса модели на Hugging Face и GitHub под лицензией MIT и Nvidia Open Model License, разрешающей коммерческое использование без присвоения прав на результаты. На данный момент модель поддерживает только английский язык. Далее исследователи планируют заняться выравниванием после обучения и интеграцией инструментов.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник