whisper. - страница 3

Мошенники позвонили моему ИИ-деду. Он продержал их 31 минуту и записал всё

Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.

продолжить чтение

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.Зачем это вообще понадобилосьГолосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

продолжить чтение

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Кому лень читать полностью

продолжить чтение

Студент из России выиграл хакатон в Америке

Максим (первый справа) и его командаПриветствую вас, хабаровчане!

продолжить чтение

Топ-6 нейросетей для синтеза речи: лучшие инструменты для озвучки текста в 2025 году

Недавно на работе мне пришлось столкнуться с одной задачей. Нужно было срочно озвучить текст для ролика, но рядом ни диктора, ни коллег, которые могли бы помочь.

продолжить чтение

Топ-7 нейросетей для транскрибации аудио в текст: обзор лучших AI-моделей для быстрой и точной расшифровки

продолжить чтение

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

Meta представила

продолжить чтение

Как мы сделали аналитику контакт-центра на LLM в 7 раз дешевле

ВведениеМы устали слушать звонки.Не из-за любопытства - просто это занимало слишком много времени.Из 5 минут разговора рождались 20 минут отчёта в Excel, где человек вручную отмечал:«вежлив ли оператор», «упомянул ли цену», «отработал ли возражение».Мы построили систему, которая делает это автоматически:Whisper → QLoRA → отчёт → BI.Она оценивает звонки, считает метрики и не жалуется на переработки.Анализ стоит $0.0003 за звонок, и работает это лучше, чем ожидалось.Но не идеально.вот обновлённый фрагмент раздела 1. “От Excel к первому прототипу”

продолжить чтение

Пример организации работы над проектом с помощью VS Code и его расширений

И снова привет!В современной разработке все большую роль играют инструменты, которые позволяют эффективно комбинировать человеческий креатив с возможностями искусственного интеллекта. В этой статье я поделюсь информацией об ещё одном способе организации работы над проектами и приведу пример из своей практики.В статье речь пойдёт об использовании редактора кода VS Code и его расширений для работы над текстом и кодом в проектах.Переход в VS CodeКогда я только начинал работать над своими проектами, я перепробовал массу инструментов — от простых текстовых редакторов до полноценных IDE

продолжить чтение

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач

продолжить чтение