Gen-A стала первой отечественной платформой в России для нейросетевого улучшения видео, фото и аудио
Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут
Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.
Google Docs теперь читает документы вслух с помощью Gemini
В Google Docs появилась функция воспроизведения написанного через помощника на базе искусственного интеллекта Gemini. Можно выбирать разные голоса и скорость воспроизведения.
Google внедрила функцию создания иллюстрированных книг в Gemini
Новейшая функция ИИ-приложения Google Gemini позволяет создавать персонализированные иллюстрированные сборники рассказов с озвучкой для детей. Искусственному интеллекту можно поручить создание любой истории на основе текстового запроса. В качестве «вдохновения» для рассказов ИИ способен использовать фотографии, изображения и файлы пользователя.
Как телеграм-каналы похоронят новостное радио
Да, теперь телеграм-каналы можно слушать. В дороге, на тренировке, вместе с другими делами. И без ИИ здесь, конечно же, не обошлось.Контента много, а времени мало
Обработка аудио на ESP32
В этой статье я хочу поделиться своим опытом портирования проекта распознавания музыкальных жанров аудиозаписей на ESP32-C3. Исходный проект взят из репозитория книги TinyML-Cookbook_2E.При анализе речи или других звуков важно выделить такие характеристики, которые отражают строение сигнала, но при этом не зависят от конкретных слов, громкости и других мешающих факторов. Для этого используют cepstrum, mel-cepstrum и MFCC - это шаги преобразования, которые переводят звук в удобную для анализа форму.Краткое описание алгоритма
Nari Labs выпустила компактную модель Dia для генерации диалогов из текста
Разработчики Nari Labs выпустили компактную нейросеть Dia для генерации диалогов из текста. Также пользователи могут управлять эмоциями собеседников и невербальной коммуникацией: смехом, кашлем и вздохами.
Стартап LiveKit получает $45 млн на развитие облачной платформы для потоковой передачи мультимедиа
Для многих технологических компаний проблемой является доставка пользователям мультимодальных данных с высокой пропускной способностью — например, одновременного аудио и видео — в режиме реального времени без перерывов. Некоторые компании разрабатывают решения внутри компании, но они часто требуют большого объема обслуживания и ремонта.
Вышла YuE — открытая модель машинного обучения для генерации музыки
Исследователи Гонконгского университета науки и технологии представили открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.

