tts.
Умеет ли Gemini в TTS и транскрибацию?
Немного о работе с моделями гемини, небольшой анализ других LLM и собственный инструментПривет, Хабр! В предыдущих статьях я делился опытом создания инструментов для работы со структурированными данными на базе Gemini. Этот проект, начатый из практической необходимости, перерос в нечто большее — в исследовательский интерес к возможностям современных ИИ-моделей.
Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России
Дружба народов здорового человекаНаконец-то представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:
Наш новый LLM-based синтез речи
Всем привет! Я Гриша Стерлинг, лид команды TTS в Сбере. Мы сделали новый синтез речи, он на голову лучше старого, особенно по естественности и человечности. Мы так и называем его – «новый синтез», или GigaTTS. Он умеет смеяться, справляется со всеми эмоциями, говорит как живой человек.Сразу предлагаю поболтать с ним в голосовом режиме GigaChat.
Мы опубликовали silero-tts v5 на русском языке
Пора!Время пришло. Мы решили задачу омографов (пока в первой версии, но идей ещё вагон) и теперь удовольствие от публикации наших новых публичных моделей синтеза наконец-то будет полным! Более того, что следом за ними пойдут ещё кое-какие модели, но это будет сюрприз.Что поменялось:
Microsoft выпустила VibeVoice — открытую TTS-модель для генерации диалогов и подкастов продолжительностью до 90 минут
Исследователи Microsoft Research представили VibeVoice — модель для генерации диалогов из текста. Главная особенность TTS-системы в том, что она может создавать диалоги продолжительностью до 90 минут с четырьмя действующими лицами.
Language Dove: разбираем китайскую и не только грамоту
Я довольно давно живу в Армении и изучаю армянский язык для получения гражданства (“вы должны уметь читать любой документ” - сказали мне в миграционном центре). Армянский язык очень сложен, и у меня возникла идея написать приложение для иммерсивного (dove - нырнул, погрузился) чтения на иностранном языке с пословным контекстуальным переводом, которое способно работать с любыми языками, даже с самыми редкими и сложными.Сегодня я хочу вам рассказать о том, что у меня получилось - о проекте Language Dove, над которым я работаю уже полгода.Описание приложения
Телеграм-каналы теперь можно слушать
Рассказываем, как с помощью ИИ мы создали аудио-платформу для телеграм-каналов. И почему это нужно всем, у кого нет времени читать. Каналов много, а времени мало

