whisper.

Погружаем модели в сказки русские, да рассказы древние – тестируем возможности Qwen и Whisper на дореволюционномъ

продолжить чтение

Что под капотом у ИИ-агента для отдела продаж: архитектура, код и грабли

Про «ИИ-агента для продаж» пишут так, будто это одна кнопка: подключил, и он сам звонит, квалифицирует, дожимает. На демо так и выглядит. В проде между «агент послушал звонок» и «в CRM появилась правильная задача менеджеру» лежит десяток слоёв, и в каждом всё тихо ломается. Это разбор такого пайплайна по слоям, с кодом, цифрами и граблями, на которые мы наступали, пока доводили агента до боевого режима.

продолжить чтение

Система авто-оценки качества вебинаров на Claude Code за неделю

TL;DRМетодисты вручную пересматривали вебинары - не масштабируется. Собрал конвейер: видео → локальная расшифровка (whisper.cpp на Apple M4) → LLM-судья по рубрике с цитатами → SQLite → письмо и дашборд. Боевое ядро заработало примерно за неделю.Главное в LLM-судье - не промпт, а методика: рубрика как данные (YAML, который правят методисты), калибровка под живых экспертов и честность про пределы текста.Claude Code тут - быстрый дисциплинированный джун: ускоряет «как написать» в разы, но надежность, идемпотентность и гардрейлы надо прямо навязывать.

продолжить чтение

Почему Word Error Rate (WER) недостаточно: Семантическая декомпозиция ошибок ASR

ОглавлениеВступлениеБизнес-ценность и определение проблемыКак измеряется качество распознавания речи?Недостатки индустриального стандартаКак мы измеряем точность моделей у себяЗадача 1: Получить корректный датасет и сделать результаты сопоставимымиЗадача 2: Понять, где именно ошибка и к какой категории она относитсяЗадача 3: Объединить ошибки и семантику

продолжить чтение

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Пару месяцев назад мы публиковали статью про то, как получили 3.3% WER для русского ASR на CPU с GigaAM - главный тезис тогда был «специализация бьёт универсальность». Замеры в той статье шли на пяти TTS-фрагментах из аудиокниг. Всё дало идеальные 3,3% WER. С тех пор мы перемерили обе модели на реальных продакшен-записях и часть прошлых выводов здесь уточняем.Кандидата у нас по-прежнему два: SberDevices GigaAM v3-e2e-rnnt и OpenAI Whisper large-v3-turbo

продолжить чтение

Qwen3.5 на двух V100, reverse SSH вместо Cloudflare в Telegram Mini App: собираю AI-репетитора английского

У меня в углу комнаты стоит сервер с двумя Tesla V100 32GB. Они доcтались мне для другой задачи, которая отвалилась, и полгода стояли мёртвым грузом. Параллельно я в очередной раз пробовал заниматься английским — Simpler, Doalingo, ещё пара продуктов. Хорошие, но мне не подходил формат: я хотел сценарий «открыл телефон дома на семь минут, поговорил, закрыл». Без расписания, без камеры, без поиска тьютора, который понимает мой акцент с пятого раза.Сошлось.

продолжить чтение

Как я решил проблему русской диктовки для ИИ

Проблема

продолжить чтение

От MVP на Whisper до собственной ASR: как мы построили платформу субтитров для RUTUBE

Автоматическое создание субтитров для пользовательского контента может выглядеть довольно простой задачей: берем готовую ASR‑модель, распознаем аудио из видео и сохраняем результат.Именно таким и был наш первый MVP в RUTUBE — сервис на базе Whisper, который позволил быстро проверить гипотезу и запустить субтитры в production. Но очень быстро стало понятно, что между «распознать речь» и «сделать субтитры для всего контента» лежит огромный пласт работы.

продолжить чтение

Топ локальных нейросетей ︎◍ 2026: подборка ИИ для запуска из дома

Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением “Недостаточно памяти”. Казалось, что домашний ИИ –

продолжить чтение

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента

продолжить чтение