Компания Hume AI открыла исходный код TADA – системы искусственного интеллекта для генерации речи, которая синхронно обрабатывает текст и аудио.

В отличие от предыдущих систем, которые генерировали значительно больше аудиокадров на один текстовый токен, TADA сопоставляет ровно один аудиосигнал с каждым текстовым токеном.
По данным Hume AI, TADA работает более чем в пять раз быстрее аналогичных систем и не допускает ошибок при расшифровке – ни добавленных, ни пропущенных слов по сравнению с исходным текстом – в тестах с более чем 1000 образцов. По результатам оценки людьми система набрала 3,78 балла из 5 за естественность.
По словам представителей Hume AI, TADA достаточно компактна, чтобы работать на смартфонах, хотя при воспроизведении длинных текстов голос может периодически сбиваться. Система представлена в двух вариантах – с параметрами 1B и 3B, оба на основе Llama.
Меньшая модель поддерживает английский язык, а версия 3B – еще семь языков. Весь код и модели доступны на GitHub и Hugging Face под лицензией MIT, а полную техническую информацию можно найти в статье.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: mefdayy


