Звук.
Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут
Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.
Исследователи представили технологию прослушки смартфонов с помощью радаров автопилотов
Исследователи из Университета штата Пенсильвания обнаружили, что вибрации динамика внутри телефона при разговоре можно уловить радарным датчиком автопилота автомобиля. Они смогли преобразовать эти вибрации в аудио и расшифровать их с помощью искусственного интеллекта.
Google выпустила биоакустическую модель Perch 2.0 для наблюдения за звуками животного мира
Исследователи Google Deepmind выпустили обновление Perch 2.0, предназначенной для акустического наблюдения звуками диких животных. Если первая версия была обучена только для распознавания звуков птиц, то в обновлении идею расширили до звуков птиц, млекопитающих, амфибий, а также антропогенных и общих звуков дикого мира.
«Яндекс Книги» обновили виртуального ИИ‑рассказчика
«Яндекс Книги» запустили новую версию виртуального рассказчика с улучшенной нейросетевой моделью синтеза голоса. Функция доступна для 120 тысяч произведений. По словам «Яндекса», интонации рассказчика стали более живыми и естественными. Манера чтения меняется в зависимости от жанра книги. В работе использовалась новая ИИ‑модель, демонстрирующая высокое качество синтеза на русском языке. В «Яндекс Книгах» утверждают, что качество ИИ‑модели в 80% случаев лучше, чем у ElevenLabs.
ElevenLabs запустила IIElevenMusic — конкурента Suno для генерации музыки
ElevenLabs запустила сервис IIElevenMusic для генерации музыки. Для создания надо подробно описать трек на естественном языке и выбрать продолжительность от 30 секунд до 4 минут.
Spotify намекает на то, что в будущем голосовой ИИ станет более «разговорчивым»
Spotify намекает, что развитие генеративного искусственного интеллекта может в будущем привести к появлению более разговорного интерфейса со стриминговым сервисом. Об этом рассказали во время отчёта о доходах за второй квартал, предоставленным во вторник.
30-часовых тарифов Spotify на аудиокниги не хватает для прослушивания длинных произведений
Spotify запустил два новых дополнения Audiobooks Plus, которые позволяют пользователям Premium удвоить лимит прослушивания аудиокниг до 30 часов. Они доступны как отдельным подписчикам Premium, так и пользователям с тарифными планами Family и Duo. Однако этих планов не хватает тем, кто предпочитает слушать длинные книги.
Используем API Speech2Text для распознавания записей разговоров
В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную.
ИИ завершил неоконченную оперу П.И. Чайковского
В Мариинском театре состоялась историческая премьера оперы «Мандрагора», завершенной с применением ИИ-технологий. Произведение, задуманное Петром Ильичом Чайковским более века назад, обрело окончательную форму благодаря синтезу классического наследия и современных цифровых инструментов, реализованных специалистами Сбера.

