
Команда FlashLabs выпустила Chroma 1.0 и фактически задала новую планку для open source голосовых систем. Это первая полностью открытая модель, которая работает по схеме «голос → голос» без промежуточного этапа текста и при этом умеет клонировать голос спикера.
Ключевая особенность Chroma в том, что это действительно end to end система. Модель не распознает речь в текст, не передает его в отдельную LLM и не запускает TTS. Весь диалог идет напрямую в аудиоформате, что резко снижает задержки и убирает искажения, типичные для каскадных пайплайнов.
По заявленным характеристикам задержка менее 150 миллисекунд от входного звука до выходного. Это почти уровень живого телефонного разговора и критически важно для сценариев вроде голосовых ассистентов, переводчиков и колл центров. При этом reasoning часть модели занимает всего 4 миллиарда параметров, что делает ее относительно легкой для запуска.
Отдельно стоит voice cloning. Для клонирования достаточно нескольких секунд аудио. Заявленный показатель схожести голоса SIM равен 0.817, что близко к субъективно неотличимому результату. Для открытой модели это крайне высокий уровень и прямой вызов проприетарным решениям.
Еще один важный момент это полная открытость. FlashLabs выложили веса, код и статью. Модель уже оптимизирована под SGLang от LMSYS, что упрощает деплой и снижает стоимость инференса. Это явно сделано с прицелом на реальное продакшн использование, а не только на демо и исследования.
Если заявленные характеристики подтверждаются на практике, Chroma 1.0 может стать первой реальной open source альтернативой закрытым speech to speech системам крупных компаний. В первую очередь для стартапов, исследователей и команд, которым важно контролировать модель и данные, а не зависеть от внешних API.
Ссылки на статью, модель и код уже доступны, так что сообществу не придется долго гадать. Очень скоро станет понятно, насколько Chroma действительно меняет правила игры.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


