- BrainTools - https://www.braintools.ru -
Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.

Модель под названием Stable Audio Open Small основана на методе, известном как «состязательный релятивистско-контрастный» (ARC), разработанном исследователями из Калифорнийского университета в Беркли и других учреждений. На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может воспроизводить стереозвук частотой 44 кГц всего за 75 миллисекунд — достаточно быстро для генерации практически в реальном времени.
Первоначальная версия Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом [1] с 1,1 миллиарда параметров. В этой уменьшенной версии используется всего 341 миллион параметров, что значительно упрощает её использование на потребительском оборудовании. Stability AI и Arm [2] впервые объявили о своём сотрудничестве в марте.
Чтобы модель работала на смартфонах, команда переработала архитектуру. Теперь система состоит из трёх компонентов: автокодировщика, который сжимает аудиоданные, встраиваемого модуля, который интерпретирует текстовые подсказки, и диффузионной модели, которая генерирует финальный звук.
Эта переработанная система не использует дистилляцию, но при этом сокращает использование памяти [3] почти вдвое — с 6,5 ГБ до 3,6 ГБ. Такое сокращение позволяет впервые запустить модель на мобильных устройствах. Во время тестирования исследователи использовали Vivo X200 Pro — телефон на Android с 12 ГБ оперативной памяти и чипом Mediatek Dimensity 9400, выпущенным в конце 2024 года.
Stability AI сообщает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей. Она по-прежнему испытывает трудности с музыкой, особенно с пением, и лучше всего работает с подсказками на английском языке.
Модель была обучена примерно на 472 000 клипах из базы данных Freesound, используя только материалы, лицензированные по условиям CC0, CC BY или CC-Sampling+. Чтобы избежать проблем с авторскими правами, команда отфильтровала данные с помощью ряда автоматических проверок.
Программное обеспечение доступно по лицензии Stability AI Community для использования с открытым исходным кодом. Коммерческое использование регулируется отдельными условиями. Код доступен на GitHub [4], а доступ к весам модели можно получить через Hugging Face [5].
Пользуясь случаем, хочу порекомендовать BotHub [6]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник [8]
Автор: mefdayy
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15328
URLs in this post:
[1] Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом: https://the-decoder.com/stable-audio-open-is-like-the-stable-diffusion-of-sound-design-and-its-completely-open-source/
[2] Stability AI и Arm: https://the-decoder.com/stability-ai-and-arm-bring-offline-on-device-generative-audio-to-mobile-devices/
[3] памяти: http://www.braintools.ru/article/4140
[4] GitHub: https://github.com/Stability-AI/stable-audio-tools
[5] Hugging Face: https://huggingface.co/stabilityai/stable-audio-open-small
[6] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=STABILITY_AI_RELEASES_A_TEXT_TO_AUDIO_MODEL_THAT_WORKS_ON_MOBILE_DEVICES
[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[8] Источник: https://the-decoder.com/stability-ai-releases-a-compact-open-text-to-audio-model-that-runs-on-mobile-devices/
[9] Источник: https://habr.com/ru/companies/bothub/news/910658/?utm_source=habrahabr&utm_medium=rss&utm_campaign=910658
Нажмите здесь для печати.