- BrainTools - https://www.braintools.ru -

Вышла Chroma 1.0. Первая полностью открытая speech to speech модель с клонированием голоса в реальном времени

Вышла Chroma 1.0. Первая полностью открытая speech to speech модель с клонированием голоса в реальном времени - 1

Команда FlashLabs выпустила Chroma 1.0 и фактически задала новую планку для open source голосовых систем. Это первая полностью открытая модель, которая работает по схеме «голос → голос» без промежуточного этапа текста и при этом умеет клонировать голос спикера.

Ключевая особенность Chroma в том, что это действительно end to end система. Модель не распознает речь в текст, не передает его в отдельную LLM и не запускает TTS. Весь диалог идет напрямую в аудиоформате, что резко снижает задержки и убирает искажения, типичные для каскадных пайплайнов.

По заявленным характеристикам задержка менее 150 миллисекунд от входного звука до выходного. Это почти уровень живого телефонного разговора и критически важно для сценариев вроде голосовых ассистентов, переводчиков и колл центров. При этом reasoning часть модели занимает всего 4 миллиарда параметров, что делает ее относительно легкой для запуска.

Отдельно стоит voice cloning. Для клонирования достаточно нескольких секунд аудио. Заявленный показатель схожести голоса SIM равен 0.817, что близко к субъективно неотличимому результату. Для открытой модели это крайне высокий уровень и прямой вызов проприетарным решениям.

Еще один важный момент это полная открытость. FlashLabs выложили веса, код и статью. Модель уже оптимизирована под SGLang от LMSYS, что упрощает деплой и снижает стоимость инференса. Это явно сделано с прицелом на реальное продакшн использование, а не только на демо и исследования.

Если заявленные характеристики подтверждаются на практике, Chroma 1.0 может стать первой реальной open source альтернативой закрытым speech to speech системам крупных компаний. В первую очередь для стартапов, исследователей и команд, которым важно контролировать модель и данные, а не зависеть от внешних API.

Ссылки на статью [1], модель [2]и код [3]уже доступны, так что сообществу не придется долго гадать. Очень скоро станет понятно, насколько Chroma действительно меняет правила игры.


Делегируйте часть рутинных задач вместе с BotHub! [4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24613

URLs in this post:

[1] статью: https://modelscope.cn/papers/2601.11141

[2] модель : https://modelscope.cn/models/FlashLabs/Chroma-4B

[3] код : https://huggingface.co/FlashLabs/Chroma-4B

[4] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=CHROMA 1.0 HAS BEEN RELEASED, THE FIRST FULLY OPEN SPEECH-TO-SPEECH MODEL WITH REAL-TIME VOICE CLONING

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Источник: https://habr.com/ru/companies/bothub/news/987646/?utm_source=habrahabr&utm_medium=rss&utm_campaign=987646

www.BrainTools.ru

Rambler's Top100