whisper.

Умная колонка своими руками

В этой статье я расскажу, как сделать своими руками две умные колонки, полностью поддерживающие русский язык:1) На микроконтроллере esp32s3, используя XiaoZhi

продолжить чтение

Превращаем Видео-уроки в навыки для Claude и других с помощью одного инструмента

Наткнулась на мощный open-source инструмент Skill Seekers, который помогает быстро запаковать знания из видеоуроков в формат для Claude, Gemini, OpenAI, RAG-пайплайнов и AI

продолжить чтение

Мошенники позвонили моему ИИ-деду. Он продержал их 31 минуту и записал всё

Три недели назад мне позвонила мама. Не «привет, как дела», а сразу: «Сынок, тут из банка звонили, говорят, с моей карты пытаются снять деньги».У меня похолодело внутри. Не потому что поверил. А потому что понял: они дозвонились. Опять.Я работаю с ML-системами шестой год. Строю пайплайны, оптимизирую инференс, вот это всё. И в тот момент, вешая трубку после того, как полчаса объяснял маме, что «сотрудник Сбербанка» не будет просить коды из SMS, я понял — хватит.

продолжить чтение

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Мне нужен был офлайновый голосовой ввод для Windows — push‑to‑talk, без облака, с хорошим распознаванием русского. Звучит просто? Я тоже так думал. За два месяца перепробовал три ASR‑движка, кучу оптимизаций, и большая часть идей оказалась тупиком. Но в итоге — 3.3% WER на CPU, в 2.4 раза лучше Whisper large‑v3-turbo на RTX 4090.Зачем это вообще понадобилосьГолосовой ввод на русском в 2026 году — грустная история. Встроенный в Windows работает через облако и плохо понимает русскую речь. Google Cloud STT — платный и требует интернет.

продолжить чтение

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Кому лень читать полностью

продолжить чтение

Студент из России выиграл хакатон в Америке

Максим (первый справа) и его командаПриветствую вас, хабаровчане!

продолжить чтение

Топ-6 нейросетей для синтеза речи: лучшие инструменты для озвучки текста в 2025 году

Недавно на работе мне пришлось столкнуться с одной задачей. Нужно было срочно озвучить текст для ролика, но рядом ни диктора, ни коллег, которые могли бы помочь.

продолжить чтение

Топ-7 нейросетей для транскрибации аудио в текст: обзор лучших AI-моделей для быстрой и точной расшифровки

продолжить чтение

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

Meta представила

продолжить чтение

Как мы сделали аналитику контакт-центра на LLM в 7 раз дешевле

ВведениеМы устали слушать звонки.Не из-за любопытства - просто это занимало слишком много времени.Из 5 минут разговора рождались 20 минут отчёта в Excel, где человек вручную отмечал:«вежлив ли оператор», «упомянул ли цену», «отработал ли возражение».Мы построили систему, которая делает это автоматически:Whisper → QLoRA → отчёт → BI.Она оценивает звонки, считает метрики и не жалуется на переработки.Анализ стоит $0.0003 за звонок, и работает это лучше, чем ожидалось.Но не идеально.вот обновлённый фрагмент раздела 1. “От Excel к первому прототипу”

продолжить чтение

123
Rambler's Top100