tts.

tts.

Как я вайбкодил озвучку текста для AutoCraft

Немного предысторииС этим расширением всё началось довольно просто: я хотел упростить себе озвучку книг и больших текстов внутри своего проекта, а не прыгать каждый раз между разными сервисами и программами.План был обычный: вставил текст, выбрал движок, получил озвучку.Но потом, как это часто бывает, всё поехало чуть дальше:LLM подкинула несколько идейкто-то попросил добавить дополнительные возможностиа мне самому пришлось разбираться с символами, которые вообще не должны озвучиватьсяВ итоге из обычной функции озвучки выросло отдельное расширение для веб-панели AutoCraft.

продолжить чтение

Разрабатываем голосового ассистента на Rockchip. Часть 2

Продолжаю разрабатывать DIY голосового ассистента на SOC-платформе Rockchip.В первой части мы соединили в единый конвейер вызов распознавания речи, локального чат-бота и синтез ответа.Если еще не читали, то вам

продолжить чтение

Мошенники позвонили моему ИИ-деду. Он продержал их 31 минуту и записал всё

Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.

продолжить чтение

Клонирование голоса по 3-секундному образцу локально: обзор Qwen3-TTS, примеры на русском и портативная версия

Всем привет! Команда Qwen от Alibaba выложила в открытый доступ Qwen3-TTS — нейросетевую модель для синтеза речи с клонированием голоса. Сегодня хочу рассказать об этой технологии подробнее и поделиться портативной версией.

продолжить чтение

Голос и микроконтроллер ESP32

Картинка: freepik.com - vecstock

продолжить чтение

Наш синтез для 20 языков теперь работает локально под Windows как экранная читалка (SAPI5) и в Балаболке

Всё шло к этому. Мы решили

продолжить чтение

Google добавил генерацию речи в Gemini API

продолжить чтение

Умеет ли Gemini в TTS и транскрибацию?

Немного о работе с моделями гемини, небольшой анализ других LLM и собственный инструментПривет, Хабр! В предыдущих статьях я делился опытом создания инструментов для работы со структурированными данными на базе Gemini. Этот проект, начатый из практической необходимости, перерос в нечто большее — в исследовательский интерес к возможностям современных ИИ-моделей.

продолжить чтение

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Дружба народов здорового человекаНаконец-то представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

продолжить чтение

Наш новый LLM-based синтез речи

Всем привет! Я Гриша Стерлинг, лид команды TTS в Сбере. Мы сделали новый синтез речи, он на голову лучше старого, особенно по естественности и человечности. Мы так и называем его – «новый синтез», или GigaTTS. Он умеет смеяться, справляется со всеми эмоциями, говорит как живой человек.Сразу предлагаю поболтать с ним в голосовом режиме GigaChat.

продолжить чтение

12
Rambler's Top100