- BrainTools - https://www.braintools.ru -
Компания Hume AI открыла исходный код TADA – системы искусственного интеллекта [1] для генерации речи, которая синхронно обрабатывает текст и аудио.

В отличие от предыдущих систем, которые генерировали значительно больше аудиокадров на один текстовый токен, TADA сопоставляет ровно один аудиосигнал с каждым текстовым токеном.
По данным Hume AI, TADA работает более чем в пять раз быстрее аналогичных систем и не допускает ошибок при расшифровке – ни добавленных, ни пропущенных слов по сравнению с исходным текстом – в тестах с более чем 1000 образцов. По результатам оценки людьми система набрала 3,78 балла из 5 за естественность.
По словам представителей Hume AI, TADA достаточно компактна, чтобы работать на смартфонах, хотя при воспроизведении длинных текстов голос может периодически сбиваться. Система представлена в двух вариантах – с параметрами 1B и 3B [2], оба на основе Llama.
Меньшая модель поддерживает английский язык, а версия 3B – еще семь языков. Весь код и модели доступны на GitHub [3] и Hugging Face [4] под лицензией MIT [5], а полную техническую информацию можно найти в статье [6].
Делегируйте часть рутинных задач вместе с BotHub [7]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [8] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [9]
Автор: mefdayy
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/27144
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] 3B: http://huggingface.co/HumeAI/tada-3b-ml
[3] GitHub: http://github.com/HumeAI/tada
[4] Hugging Face: http://huggingface.co/spaces/HumeAI/tada
[5] лицензией MIT: https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/mit.md
[6] статье: https://arxiv.org/pdf/2602.23068v1
[7] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=HUME_AI_HAS_LAUNCHED_A_FAST_SPEECH_GENERATOR_CALLED_TADA
[8] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim
[9] Источник: https://the-decoder.com/hume-ai-open-sources-tada-a-speech-model-five-times-faster-than-rivals-with-zero-hallucinated-words/
[10] Источник: https://habr.com/ru/companies/bothub/news/1010396/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1010396
Нажмите здесь для печати.