аудио.

Gen-A стала первой отечественной платформой в России для нейросетевого улучшения видео, фото и аудио

продолжить чтение

Как мы разрабатывали интеллектуальное устройство SberBoom Micro

Салют, Хабр!

продолжить чтение

Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут

Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.

продолжить чтение

Google Docs теперь читает документы вслух с помощью Gemini

В Google Docs появилась функция воспроизведения написанного через помощника на базе искусственного интеллекта Gemini. Можно выбирать разные голоса и скорость воспроизведения.

продолжить чтение

Google внедрила функцию создания иллюстрированных книг в Gemini

Новейшая функция ИИ-приложения Google Gemini позволяет создавать персонализированные иллюстрированные сборники рассказов с озвучкой для детей. Искусственному интеллекту можно поручить создание любой истории на основе текстового запроса. В качестве «вдохновения» для рассказов ИИ способен использовать фотографии, изображения и файлы пользователя.

продолжить чтение

Как телеграм-каналы похоронят новостное радио

Да, теперь телеграм-каналы можно слушать. В дороге, на тренировке, вместе с другими делами. И без ИИ здесь, конечно же, не обошлось.Контента много, а времени мало

продолжить чтение

Обработка аудио на ESP32

В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.Краткое описание алгоритма

продолжить чтение

Nari Labs выпустила компактную модель Dia для генерации диалогов из текста

Разработчики Nari Labs выпустили компактную нейросеть Dia для генерации диалогов из текста. Также пользователи могут управлять эмоциями собеседников и невербальной коммуникацией: смехом, кашлем и вздохами.

продолжить чтение

Стартап LiveKit получает $45 млн на развитие облачной платформы для потоковой передачи мультимедиа

Для многих технологических компаний проблемой является доставка пользователям мультимодальных данных с высокой пропускной способностью — например, одновременного аудио и видео — в режиме реального времени без перерывов. Некоторые компании разрабатывают решения внутри компании, но они часто требуют большого объема обслуживания и ремонта.

продолжить чтение

Вышла YuE — открытая модель машинного обучения для генерации музыки

Исследователи Гонконгского университета науки и технологии представили открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.

продолжить чтение

12
Rambler's Top100