Как мы превращаем звонок риэлтора в карточку лида за 15 секунд: ИИ-автолид изнутри
Риэлтор за рулём. Звонит собственник трёшки на Соколе: «Видел ваше объявление, хочу обсудить продажу». Двадцать минут живого разговора — район, перепланировка, срочность, вилка по цене. Разговор кончается, риэлтор едет на показ, к вечеру у него ещё пять звонков. Утром он помнит, что «был кто-то по трёшке», но не помнит ни имени, ни цены, ни телефона. Лид потерян не потому, что плохо отработали, а потому, что между звонком и CRM стоит человек с памятью и руками, которые в этот момент держат руль.Мы сделали так, чтобы между звонком и карточкой лида не стояло ничего, кроме кода. Это инженерный разбор того, как у нас в
Speech-to-LaTeX: распознавание математических выражений и предложений в LaTeX
Представьте семинар у физиков или математиков. Идёт автоматическая запись лекции, а затем распознавание речи в аккуратный текст. В большинстве мест современные ASR-системы справятся неплохо. Но значительная часть такой записи будет состоять из фраз вроде «интеграл от икс в квадрате до бесконечности», «сумма по i от единицы до n» или «производная по t от функции f».Формально голос может быть распознан правильно. В расшифровке даже могут появляться отдельные символы вроде +, π или x
Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим
фото с реального собеседования нашего клиента
Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python
Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.
Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышлоAI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.Знакомо? Мне - до зубного скрежета.
Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи
Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том,
Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk
Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.Зачем это вообще понадобилосьГолосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

