Почему одного Whisper оказалось недостаточно и как мы создали полноценный сервис распознавания речи
Всем привет! Меня зовут Наталья, я инженер машинного обучения в ЮMoney. Мы уже писали о том,
SLAY-ASR, или как я перестал волноваться и полюбил тренировать модели
Как добавить аудио-модальность в LLMку максимально экономно? Рассказываю про серию попыток добиться совместимости эмбеддингов разной природы....Зачем?
Умная колонка своими руками
В этой статье я расскажу, как сделать своими руками две умные колонки, полностью поддерживающие русский язык:1) На микроконтроллере esp32s3, используя XiaoZhi
Превращаем Видео-уроки в навыки для Claude и других с помощью одного инструмента
Наткнулась на мощный open-source инструмент Skill Seekers, который помогает быстро запаковать знания из видеоуроков в формат для Claude, Gemini, OpenAI, RAG-пайплайнов и AI
Мошенники позвонили моему ИИ-деду. Он продержал их 31 минуту и записал всё
Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.
Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk
Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.Зачем это вообще понадобилосьГолосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.
Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Кому лень читать полностью
Студент из России выиграл хакатон в Америке
Максим (первый справа) и его командаПриветствую вас, хабаровчане!
Топ-6 нейросетей для синтеза речи: лучшие инструменты для озвучки текста в 2025 году
Недавно на работе мне пришлось столкнуться с одной задачей. Нужно было срочно озвучить текст для ролика, но рядом ни диктора, ни коллег, которые могли бы помочь.

