Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude). llm.. llm. onnx.. llm. onnx. python.. llm. onnx. python. windows.. llm. onnx. python. windows. голосовой ввод.

Предыстория

На Android у меня живёт Govorun Lite — офлайн-диктовка на русском. Нажал кнопку, сказал, текст вставился. Никаких облаков, никакой отправки голоса на серверы. Работает через GigaAM v2 от Сбера.

Проблема одна: на ПК такого нет. Встроенная Windows-диктовка — онлайн. Whisper — либо медленный, либо требует видеокарту. Сторонние сервисы — снова облако.

Я решил портировать Govorun на Windows, и для ускорения взял Claude как пару-программиста. Что из этого вышло — в этой статье.

Стек

Компонент	Библиотека	Лицензия
Распознавание речи	GigaAM v2 (NeMo CTC)	MIT
ONNX-рантайм	sherpa-onnx	Apache 2.0
Захват звука	sounddevice	MIT
Глобальные хоткеи	keyboard	MIT
Буфер обмена	pyperclip	BSD
Пунктуация	punctuators (xlm-roberta)	Apache 2.0

Всё офлайн. После первоначальной загрузки моделей (~380 МБ суммарно) интернет не нужен.

Как это устроено внутри

Программа делает четыре простых вещи последовательно:

1. Слушает нажатие клавиш
Фоновый хук отслеживает Alt+X во всей системе — в любом окне, в любом приложении.

2. Пишет микрофон
Первое нажатие Alt+X — открывается поток с микрофона (16 кГц, моно). Звук накапливается в памяти кусками. Второе нажатие — поток закрывается, все куски склеиваются в один массив чисел.

3. Распознаёт речь
Массив уходит в GigaAM v2 через sherpa-onnx. Модель работает офлайн прямо на процессоре, возвращает строку без знаков препинания — это особенность CTC-архитектуры.

4. Восстанавливает пунктуацию и вставляет
Строка проходит через вторую модель (xlm-roberta ONNX) — она расставляет запятые, точки и заглавные буквы. Готовый текст копируется в буфер обмена и вставляется через Ctrl+V в то окно, где стоял курсор.

Ключевые куски кода

Запись звука

class Recorder:
    def _callback(self, indata, frames, time_info, status):
        if status:
            print(f"[!] sounddevice: {status}")
        with self._lock:
            if self.recording:
                self.frames.append(indata.copy())

    def start(self) -> None:
        with self._lock:
            self.frames = []
            self.recording = True
        self.stream = sd.InputStream(
            samplerate=16_000,
            channels=1,
            dtype="float32",
            device=INPUT_DEVICE,   # None = системный дефолт
            callback=self._callback,
        )
        self.stream.start()

    def stop(self) -> np.ndarray:
        with self._lock:
            self.recording = False
        self.stream.stop(); self.stream.close()
        return np.concatenate(self.frames).flatten().astype(np.float32)

GigaAM ожидает моно, 16 кГц, float32 — именно это мы и пишем.

Распознавание

def load_recognizer() -> sherpa_onnx.OfflineRecognizer:
    return sherpa_onnx.OfflineRecognizer.from_nemo_ctc(
        model="models/model.onnx",
        tokens="models/tokens.txt",
        num_threads=4,
        sample_rate=16_000,
        feature_dim=80,          # GigaAM v2 — 80-мерные мел-фичи
        decoding_method="greedy_search",
    )

def recognize(rec, audio: np.ndarray) -> str:
    stream = rec.create_stream()
    stream.accept_waveform(16_000, audio)
    rec.decode_stream(stream)
    return stream.result.text.strip()

Вставка в активное окно

def paste_text(text: str) -> None:
    pyperclip.copy(text)
    time.sleep(0.05)
    keyboard.send("ctrl+v")   # работает в любом окне

Грабли, которые мы собрали

1. Неправильный микрофон

sounddevice без параметра device берёт системный дефолт — но на Windows это может оказаться виртуальным устройством или стереомикшером. Добавили диагностику:

def print_devices():
    devices = sd.query_devices()
    default_in = sd.default.device[0]
    for i, d in enumerate(devices):
        if d["max_input_channels"] > 0:
            marker = " ◄ дефолт" if i == default_in else ""
            print(f"[{i}] {d['name']}{marker}")

И флаг --device N для выбора нужного микрофона.

2. Нет пунктуации

GigaAM CTC — это «сырая» модель: она выдаёт слова строчными буквами без запятых и точек. Это ограничение архитектуры CTC, а не конкретной модели.

Решение — постобработка через отдельную модель. Сначала попробовали deepmultilingualpunctuation (PyTorch), но она потянула 1.5 ГБ зависимостей. Перешли на punctuators — ONNX-based xlm-roberta, ~50 МБ, поддерживает русский:

from punctuators.models import PunctCapSegModelONNX
model = PunctCapSegModelONNX.from_pretrained(
    "1-800-BAD-CODE/xlm-roberta_punctuation_fullstop_truecase"
)
result = model.infer(["привет как дела это тест"])
# → ["Привет, как дела? Это тест."]

3. WinError 6714 — транзакция NTFS

При первом запуске с deepmultilingualpunctuation PyTorch попытался писать временные файлы прямо в C:Govorun. Windows заблокировала директорию через TxF (Transactional NTFS) и не отпустила — все последующие Path.exists() в той же папке падали с OSError: [WinError 6714].

Лечится перезагрузкой ПК. Но чтобы не повторялось — нужно заранее перенаправить кэши:

_CACHE = Path.home() / ".cache" / "govorun"
os.environ.setdefault("HF_HOME",           str(_CACHE / "huggingface"))
os.environ.setdefault("TRANSFORMERS_CACHE", str(_CACHE / "huggingface" / "hub"))
os.environ.setdefault("TORCH_HOME",        str(_CACHE / "torch"))

Важно: эти строки должны стоять до любых import torch / import transformers.

4. pyautogui не вставлял текст

Первоначально вставка делалась через pyautogui.hotkey("ctrl", "v"). Из фонового потока это иногда не срабатывало — фокус окна успевал уйти пока шло распознавание.

Заменили на keyboard.send("ctrl+v") из той же библиотеки, что уже используется для хоткеев. Работает надёжнее, потому что эмулирует нажатие на уровне драйвера, а не через UI Automation.

Что получилось

📋 Доступные устройства ввода: [0] Микрофон (Realtek HD Audio) ◄ дефолт [1] Стерео микшер (Realtek HD Audio)

🎙 Используется устройство [0]: Микрофон (Realtek HD Audio)

⏳ Загружаю модель пунктуации (ONNX)… ✅ Пунктуация готова.

⏳ Загружаю GigaAM… ✅ Модель готова.

🎯 [ALT+X] — старт/стоп записи. Ctrl+C в этом окне — выход.

🎤 Запись… (нажмите ALT+X ещё раз чтобы остановить) ⏹ Записано 4.2с, уровень: 0.0318, распознаю… 📝 Привет, это тестовая запись. Всё работает отлично. ✅ Скопировано и вставлено

Текст появляется в том поле, где стоял курсор — в браузере, Telegram, Word, IDE, где угодно

Установка

git clone <репозиторий>
cd Govorun

pip install -r requirements.txt
python download_models.py   # скачивает GigaAM v2, ~330 МБ

python govorun_pc.py

При первом запуске punctuators скачает xlm-roberta (~50 МБ) в ~/.cache/govorun/. Интернет больше не понадобится.

Что можно докрутить

VAD — Silero VAD для автостопа по паузе, как в оригинальном Android-приложении
Системный трей — pystray, чтобы не держать терминал открытым
Стриминг — sherpa-onnx умеет онлайн-режим (streaming-zipformer модели), текст будет появляться по мере речи
GUI для настроек — смена хоткея без правки кода, выбор микрофона из списка.

Итог

На всё ушло меньше вечера. Основная часть времени — не написание кода, а отладка специфических Windows-проблем (WinError 6714, выбор микрофона). Claude предлагал решения, я проверял на живой машине, правили вместе.

Стек получился полностью офлайн, без PyTorch в рантайме (только ONNX), и работает на обычном процессоре без GPU.

Буду рад вопросам в комментариях.

Благодарности

Отдельное спасибо amidexe — автору оригинального Govorun Lite для Android. Именно его работа стала отправной точкой: готовая идея, проверенный стек (GigaAM + sherpa-onnx), понятная концепция «нажал — сказал — вставилось».

Без его приложения я бы не знал, с чего начать, и вряд ли вообще взялся за эту задачу.

Автор: size222

Источник

Запись добавлена: 04.05.2026 в 13:16
Оставлено в

Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude)

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Предыстория

Стек

Как это устроено внутри

Ключевые куски кода

Запись звука

Распознавание

Вставка в активное окно

Грабли, которые мы собрали

1. Неправильный микрофон

2. Нет пунктуации

3. WinError 6714 — транзакция NTFS

4. pyautogui не вставлял текст

Что получилось

Установка

Что можно докрутить

Итог

Благодарности

Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude)

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Предыстория

Стек

Как это устроено внутри

Ключевые куски кода

Запись звука

Распознавание

Вставка в активное окно

Грабли, которые мы собрали

1. Неправильный микрофон

2. Нет пунктуации

3. WinError 6714 — транзакция NTFS

4. pyautogui не вставлял текст

Что получилось

Установка

Что можно докрутить

Итог

Благодарности