stt.

Что перестаёт работать в тестировании, когда приходит LLM

Слева — привычный зелёный тест. Справа — то, что с ним делает LLM

Оставлено в

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Я однажды примерно за сутки сжег около $100 на голосовом агенте.Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:Здравствуйте.Здравствуйте, чем могу помочь?Я звоню, чтобы…Здравствуйте, чем могу помочь?Конечно, подскажите, пожалуйста…

продолжить чтение

Оставлено в

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента

продолжить чтение

Оставлено в

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

Привет, Хабр! Меня зовут Владимир Никулин, я технический лидер команды продуктивизации нейросетевых решений в MWS AI. Мы развиваем платформу синтеза и распознавания речи Audiogram, которая, в свою очередь, является частью еще более масштабной платформы для создания ИИ-агентов — MWS AI Agents Platform.Часто нашим заказчикам нужно компактное коробочное решение, которое можно запустить на CPU при отсутствии GPU или для простой экономии ресурсов. В этом материале по следам своего же доклада на AiConf на примере нашего модуля автоматического распознавания речи (Automatic Speech Recognition или кратко — ASR) я расскажу:

продолжить чтение

Оставлено в

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.

продолжить чтение

Оставлено в

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

30+ движков за две недели, реальные замеры на Apple M4, и почему ElevenLabs за $5.57/час - это приговор для бизнесаСижу на очередном рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в слаке переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.Знакомо?

продолжить чтение

Оставлено в

Голос и микроконтроллер ESP32

Картинка: freepik.com - vecstock

продолжить чтение

Оставлено в

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)

В интернете огромное количество гайдов на тему транскрибации аудио и анализа совещаний через ИИ. Но все они описывают разрозненные решения: отдельно транскрибируй аудио, затем отправь в ChatGPT, и так далее.Я решил комплексно подойти к этому вопросу и навайбкодить веб-приложение, где все задачи решаются в одном окне, а именно:Хранение транскрипцийЧат с ИИ по содержимому встречиСтруктурированные протоколы (задачи, решения, события)Рекомендации ИИ на базе текущей и предыдущих встречИнтеграция с CRM в один клик (beta)

продолжить чтение

Оставлено в

Умеет ли Gemini в TTS и транскрибацию?

Немного о работе с моделями гемини, небольшой анализ других LLM и собственный инструментПривет, Хабр! В предыдущих статьях я делился опытом создания инструментов для работы со структурированными данными на базе Gemini. Этот проект, начатый из практической необходимости, перерос в нечто большее — в исследовательский интерес к возможностям современных ИИ-моделей.

продолжить чтение

Оставлено в

T-one — открытая русскоязычная потоковая модель для телефонии

Всем привет! Я Андрей, ML-разработчик из команды распознавания речи в Т-Банке. Мы занимаемся полным циклом разработки: сбором и разметкой данных, проведением экспериментов по обучению моделей, интеграцией в продакшен.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

stt.

Что перестаёт работать в тестировании, когда приходит LLM

Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Я протестировал 30+ голосовых AI-движков и собрал переводчик быстрее Google Meet. Бенчмарки, цены, грабли

Голос и микроконтроллер ESP32

Meeting-LLM: Транскрипция + ИИ-анализ совещаний в одном окне своими руками (T-One + GPT-OSS-20B)

Умеет ли Gemini в TTS и транскрибацию?

T-one — открытая русскоязычная потоковая модель для телефонии

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

stt.