распознавание речи. - страница 2

T-one — открытая русскоязычная потоковая модель для телефонии

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

продолжить чтение

Пишем персонального AI-ассистента на Python

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет:Слушать микрофонОпределять начало и конец речи с помощью VAD (Voice Activity Detection)Преобразовывать речь в текст через модель WhisperОтправлять запросы на локальный LLM для генерации ответаЧитать ответ вслух с помощью gTTSНачинать/останавливать запись по клавише пробел

продолжить чтение

Как я делал голосового ассистента на NLP и не сошел с ума

Голосовые ассистенты давно перестали быть просто игрушкой — теперь это полноценные цифровые помощники, которые умеют общаться, искать информацию и даже шутить (иногда лучше некоторых людей). В этой статье разберём, как собрать своего кастомного ассистента с нуля на Python, используя современные NLP-инструменты. Без Siri, без Alexa, всё своё, родное.

продолжить чтение

Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

Шопинг с использованием голоса уже не кажется чем-то удивительным. По данным опроса Департамента социальных исследований и консалтинга ВЦИОМ Андрей Даудрих, среди 63% россиян, которые использовали ИИ-инструменты в. 2024 году, 31% прибегали преимущественно к голосовым помощникам.

продолжить чтение

YouScriptor — ИИ стартап за выходные

Сервис перевода Youtube в текст YouScriptorЧестно сказать, меня весьма сокрушает то, что контент в интернете перешел из текста в видео. Читаю я довольно быстро и мне куда проще и бытрее окинуть страницу взглядом, чем пролистивыать видео на несколько десятков минут, пыстаясь поскорее найти суть. Подозреваю, что сам видео-формат и продвигается как пожиратель времени.В Яндексе уже достаточно давно появилась функция пересказ YouTubе - но это именно пересказ и отсебятина, мне это не подходит. Нужен точный текст.

продолжить чтение

Как «Писец» на Тотальный диктант ходил

В 2024 году состоялся юбилейный, десятый Тотальный диктант. Тогда на него пришёл «Писец». Вы не подумайте, не произошло ничего плохого. «Писец» — это открытая система автоматической расшифровки речи, от журналистского интервью до заседания диссертационного совета. Будто древнерусский пи́сец, который записывает за боярином всё, что тот говорит, и затем сохраняет в виде структурированного текста с таймингами.

продолжить чтение

Нейросеть Llama3 получила улучшенное понимание речи

Разработчики Llama3-s v0.2 поделились улучшениями, которые модель продемонстрировала в тестах понимания речи и способности «слушать». В llama3-s v0.1 начали внедрять акустические токены. В v0.2 реализовали слияние с семантическими токенами, которые обладают такими преимуществами, как простота, лучшее сжатие и последовательное извлечение признаков речи.

продолжить чтение

12
Rambler's Top100