Вышла Chroma 1.0. Первая полностью открытая speech to speech модель с клонированием голоса в реальном времени. ai.. ai. chroma.. ai. chroma. Блог компании BotHub.. ai. chroma. Блог компании BotHub. Будущее здесь.. ai. chroma. Блог компании BotHub. Будущее здесь. ИИ.. ai. chroma. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. chroma. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. chroma. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. chroma. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. chroma. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Вышла Chroma 1.0. Первая полностью открытая speech to speech модель с клонированием голоса в реальном времени - 1

Команда FlashLabs выпустила Chroma 1.0 и фактически задала новую планку для open source голосовых систем. Это первая полностью открытая модель, которая работает по схеме «голос → голос» без промежуточного этапа текста и при этом умеет клонировать голос спикера.

Ключевая особенность Chroma в том, что это действительно end to end система. Модель не распознает речь в текст, не передает его в отдельную LLM и не запускает TTS. Весь диалог идет напрямую в аудиоформате, что резко снижает задержки и убирает искажения, типичные для каскадных пайплайнов.

По заявленным характеристикам задержка менее 150 миллисекунд от входного звука до выходного. Это почти уровень живого телефонного разговора и критически важно для сценариев вроде голосовых ассистентов, переводчиков и колл центров. При этом reasoning часть модели занимает всего 4 миллиарда параметров, что делает ее относительно легкой для запуска.

Отдельно стоит voice cloning. Для клонирования достаточно нескольких секунд аудио. Заявленный показатель схожести голоса SIM равен 0.817, что близко к субъективно неотличимому результату. Для открытой модели это крайне высокий уровень и прямой вызов проприетарным решениям.

Еще один важный момент это полная открытость. FlashLabs выложили веса, код и статью. Модель уже оптимизирована под SGLang от LMSYS, что упрощает деплой и снижает стоимость инференса. Это явно сделано с прицелом на реальное продакшн использование, а не только на демо и исследования.

Если заявленные характеристики подтверждаются на практике, Chroma 1.0 может стать первой реальной open source альтернативой закрытым speech to speech системам крупных компаний. В первую очередь для стартапов, исследователей и команд, которым важно контролировать модель и данные, а не зависеть от внешних API.

Ссылки на статью, модель и код уже доступны, так что сообществу не придется долго гадать. Очень скоро станет понятно, насколько Chroma действительно меняет правила игры.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100