Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах. ARM.. ARM. stability ai.. ARM. stability ai. Блог компании BotHub.. ARM. stability ai. Блог компании BotHub. генерация текста.. ARM. stability ai. Блог компании BotHub. генерация текста. Звук.. ARM. stability ai. Блог компании BotHub. генерация текста. Звук. ИИ.. ARM. stability ai. Блог компании BotHub. генерация текста. Звук. ИИ. ии и машинное обучение.. ARM. stability ai. Блог компании BotHub. генерация текста. Звук. ИИ. ии и машинное обучение. искусственный интеллект.. ARM. stability ai. Блог компании BotHub. генерация текста. Звук. ИИ. ии и машинное обучение. искусственный интеллект. открытая модель.. ARM. stability ai. Блог компании BotHub. генерация текста. Звук. ИИ. ии и машинное обучение. искусственный интеллект. открытая модель. текст в звук.

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах - 1

Модель под названием Stable Audio Open Small основана на методе, известном как «состязательный релятивистско-контрастный» (ARC), разработанном исследователями из Калифорнийского университета в Беркли и других учреждений. На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может воспроизводить стереозвук частотой 44 кГц всего за 75 миллисекунд — достаточно быстро для генерации практически в реальном времени.

Первоначальная версия Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом с 1,1 миллиарда параметров. В этой уменьшенной версии используется всего 341 миллион параметров, что значительно упрощает её использование на потребительском оборудовании. Stability AI и Arm впервые объявили о своём сотрудничестве в марте.

Чтобы модель работала на смартфонах, команда переработала архитектуру. Теперь система состоит из трёх компонентов: автокодировщика, который сжимает аудиоданные, встраиваемого модуля, который интерпретирует текстовые подсказки, и диффузионной модели, которая генерирует финальный звук.

Эта переработанная система не использует дистилляцию, но при этом сокращает использование памяти почти вдвое — с 6,5 ГБ до 3,6 ГБ. Такое сокращение позволяет впервые запустить модель на мобильных устройствах. Во время тестирования исследователи использовали Vivo X200 Pro — телефон на Android с 12 ГБ оперативной памяти и чипом Mediatek Dimensity 9400, выпущенным в конце 2024 года.

Stability AI сообщает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей. Она по-прежнему испытывает трудности с музыкой, особенно с пением, и лучше всего работает с подсказками на английском языке.

Модель была обучена примерно на 472 000 клипах из базы данных Freesound, используя только материалы, лицензированные по условиям CC0, CC BY или CC-Sampling+. Чтобы избежать проблем с авторскими правами, команда отфильтровала данные с помощью ряда автоматических проверок.

Программное обеспечение доступно по лицензии Stability AI Community для использования с открытым исходным кодом. Коммерческое использование регулируется отдельными условиями. Код доступен на GitHub, а доступ к весам модели можно получить через Hugging Face.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Автор: mefdayy

Источник

Rambler's Top100