- BrainTools - https://www.braintools.ru -
2 октября 2025 года компания Neuphonic представила NeuTTS Air – открытую модель преобразования текста в речь, которая кардинально меняет подход к синтезу голоса. Главная особенность в том, что она работает полностью локально на обычных устройствах без необходимости подключения к интернету или облачным сервисам.
Представьте, что вы можете создавать реалистичную речь прямо на своём смартфоне, ноутбуке или даже Raspberry Pi, не отправляя данные на сторонние серверы. Именно это и предлагает NeuTTS Air. Модель не просто синтезирует голос, она умеет мгновенно клонировать его, используя всего 3 секундный образец аудио.
Это открывает новые возможности для разработчиков:
Создание голосовых ассистентов, работающих офлайн
Приложения для людей с ограниченными возможностями
Инструменты для озвучивания контента
Встраиваемые системы с голосовым интерфейсом
Решения для сфер с повышенными требованиями к конфиденциальности (медицина, финансы)
NeuTTS Air построена на базе компактной языковой модели с 748 миллионами параметров. В основе лежит оптимизированный трансформер Qwen 0.5B, который отвечает за понимание и генерацию текста. Для обработки аудио используется проприетарный кодек NeuCodec, который сжимает звук до 0,8 кбит/с, сохраняя при этом качество вывода на уровне 24 кГц.
Основные характеристики:
|
Параметр |
Значение |
|---|---|
|
Размер модели |
Менее 200 МБ |
|
Количество параметров |
748 млн |
|
Частота аудио на выходе |
24 кГц |
|
Требования к железу |
CPU (GPU не требуется) |
|
Скорость генерации |
Реальное время |
|
Время для клонирования голоса |
3-15 секунд аудио |
|
Лицензия |
Apache 2.0 |
Компактный размер модели достигается за счет квантования GGUF (доступны форматы Q4 и Q8), что позволяет эффективно использовать ресурсы процессора без необходимости в мощной видеокарте.
Одна из самых впечатляющих функций – это возможность клонировать голос практически мгновенно. Вам нужно всего лишь:
Короткий аудиофрагмент (3-15 секунд чистой речи)
Текстовая расшифровка этого фрагмента
Модель анализирует образец, извлекает характеристики голоса – тембр, интонацию, ритм и может синтезировать любой новый текст этим же голосом. При этом не требуется дополнительное обучение [1] или настройка модели.
Важно: для лучших результатов используйте чистые монофонические WAV-файлы с частотой 16-44 кГц. Шумные записи или слишком короткие образцы могут снизить качество синтеза.
В эпоху, когда данные пользователей становятся всё более ценным ресурсом, локальная обработка – это не просто удобство, а необходимость для многих приложений. NeuTTS Air решает эту проблему радикально: все данные остаются на устройстве пользователя.
При этом разработчики позаботились об ответственном использовании технологии:
Все сгенерированные аудиофайлы содержат неслышимую водяную маркировку Perth
Это помогает отслеживать происхождение аудио и предотвращать злоупотребления
Компания явно запрещает использование для создания дипфейков или обманного контента
Начать работу с NeuTTS Air не сложно. Модель доступна на GitHub и Hugging Face с открытым исходным кодом (ссылки ниже).
Базовая установка:
# Клонируем репозиторий
git clone https://github.com/neuphonic/neutts-air
# Устанавливаем зависимости
pip install -r requirements.txt
# Также потребуется espeak для фонемизации
# В Linux: apt-get install espeak-ng
# В macOS: brew install espeak
Пример использования:
python -m examples.basic_example
--input_text "Привет! Это синтезированная речь"
--ref_audio samples/voice.wav
--ref_text samples/voice.txt
Для более продвинутого использования доступен Python API, который позволяет интегрировать модель в свои приложения:
from neutts_air import NeuTTSAir
# Инициализация модели
tts = NeuTTSAir()
# Кодирование референсного голоса
ref_encoding = tts.encode_reference(
audio_path="voice.wav",
transcript="Текст из аудио"
)
# Синтез новой речи
audio = tts.synthesize(
text="Новый текст для озвучки",
reference=ref_encoding
)
# Сохранение результата
tts.save_wav(audio, "output.wav")
Давайте посмотрим, как NeuTTS Air выглядит на фоне популярного облачного сервиса ElevenLabs v2.5:
|
Характеристика |
NeuTTS Air |
ElevenLabs v2.5 |
|---|---|---|
|
Тип доступа |
Открытый код, бесплатно |
Закрытый код, платная подписка |
|
Место обработки |
Локально на устройстве |
В облаке |
|
Интернет |
Не требуется |
Обязателен |
|
Конфиденциальность |
Полная (данные не покидают устройство) |
Данные передаются на сервер |
|
Скорость |
Зависит от вашего CPU |
Зависит от интернета и нагрузки сервера |
|
Требования к железу |
CPU среднего уровня |
Любое с интернетом |
|
Языки |
Пока в основном английский |
Множество языков |
Конечно, облачные решения предлагают некоторые преимущества – большие библиотеки готовых голосов, продвинутое управление эмоциями [2], поддержку множества языков. Но NeuTTS Air выигрывает там, где критична конфиденциальность, автономность работы и отсутствие recurring costs.
Как и любая технология, NeuTTS Air имеет свои ограничения:
Качество входных данных: Модель чувствительна к качеству референсного аудио. Шумные записи, сильные акценты или нестандартное произношение могут снизить точность клонирования.
Языковая поддержка: На момент запуска акцент сделан на английском языке. Поддержка других языков, включая русский, пока не подтверждена официально, хотя архитектура потенциально это позволяет.
Производительность: Хотя модель работает в реальном времени на процессорах среднего уровня, генерация может занять больше времени на слабых устройствах. По отзывам пользователей, время синтеза составляет около 26 секунд для некоторых конфигураций.
Размер контекста: Модель оптимизирована для коротких фраз и предложений. Для синтеза длинных текстов может потребоваться разбиение на части.
Где можно использовать NeuTTS Air уже сегодня:
Образование и доступность: Создание инструментов для людей с нарушениями зрения [3] или речи, которые работают без подключения к интернету.
Встраиваемые системы: Голосовые интерфейсы для умных домов, автомобильных систем, промышленного оборудования. Т.е. всё, что требует автономной работы.
Контент-индустрия: Быстрое прототипирование озвучки для видео, подкастов, аудиокниг. Особенно полезно для черновых версий.
Конфиденциальные сферы: Медицинские приложения, финансовые консультанты, юридические сервисы – везде, где передача голосовых данных на сторонние серверы нежелательна.
Игровая индустрия: Динамическая генерация реплик NPC с уникальными голосами без необходимости записи тысяч строк диалогов.
NeuTTS Air – это только начало. Как открытый проект, модель может развиваться силами сообщества:
Добавление поддержки новых языков
Улучшение обработки шумных записей
Оптимизация для мобильных платформ
Интеграция с популярными фреймворками
Расширение возможностей управления эмоциональной окраской
Уже сейчас в репозитории на GitHub активно обсуждаются различные улучшения, а энтузиасты экспериментируют с моделью на разных языках и платформах.
NeuTTS Air представляет собой значительный шаг в демократизации технологий синтеза речи. Компания Neuphonic создала инструмент, который делает качественную генерацию голоса доступной для разработчиков без необходимости в дорогой инфраструктуре или зависимости от облачных сервисов.
Основные преимущества:
Полная локальная обработка без передачи данных
Компактный размер и низкие требования к железу
Открытый исходный код и бесплатное использование
Мгновенное клонирование голоса
Работа в реальном времени на CPU
Что стоит учитывать:
Пока в основном английский язык
Требовательность к качеству входных данных
Меньше готовых функций по сравнению с облачными гигантами
Для разработчиков, которые ценят конфиденциальность, автономность и открытость, NeuTTS Air – отличный выбор для экспериментов и создания новых приложений с голосовым интерфейсом.
Демо в браузере [6]
*Статья подготовлена на основе открытых источников и официальной документации проекта. Версия модели на момент публикации: релиз от 2 октября 2025 года.
Автор: stas-clear
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20348
URLs in this post:
[1] обучение: http://www.braintools.ru/article/5125
[2] эмоциями: http://www.braintools.ru/article/9540
[3] зрения: http://www.braintools.ru/article/6238
[4] Репозиторий на GitHub: https://github.com/neuphonic/neutts-air
[5] Модель на Hugging Face: https://huggingface.co/neuphonic/neutts-air
[6] Демо в браузере: https://huggingface.co/spaces/neuphonic/neutts-air
[7] Официальный сайт Neuphonic: https://www.neuphonic.com/
[8] Источник: https://habr.com/ru/articles/953916/?utm_campaign=953916&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.