speech synthesis.

Как я добавил llama.cpp бэкенд в CosyVoice3 и ускорил инференс в 2.6x

CosyVoice3 — одна из лучших open source TTS моделей прямо сейчас, особенно для русского языка. Но у неё есть проблема: LLM-часть на PyTorch работает медленно на слабых GPU вроде T4. RTF (real-time factor) около 1.17 — это значит синтез одной секунды аудио занимает больше секунды реального времени.Я решил это исправить, добавив поддержку llama.cpp через llama-cpp-python. Результат: RTF упал до ~0.45, то есть ускорение примерно в 2.6x.В этой статье расскажу как это работает, почему это нетривиально, и как попробовать самому.Почему CosyVoice LLM — не обычная LLM

продолжить чтение