- BrainTools - https://www.braintools.ru -
Автор блога Modulovalue Модестас Валаускас рассказал [1], что за последние 39 дней он надиктовал 243 554 слова, что примерно равно объёму двух книг. Он использовал тестовое приложение для диктовки Wispr Flow.

Сервис работает в фоновом режиме и совместим с любым приложением. Для его использования достаточно удерживать клавишу. Wispr Flow автоматически редактирует слова-паразиты, добавляет знаки препинания и подстраивает тон и форматирование под используемое приложение. В нём есть собственный словарь, поэтому сервис изучает терминологию, что важно при работе со специфическими терминами.
«Это действительно изменило мою жизнь. Цифры: 39-дневная ежедневная серия, 129 слов в минуту (2% лучших пользователей Flow), 243 554 слова, продиктованных в 58 различных приложениях», — отмечает пользователь.
Валаускас говорит, что после пяти недель постоянной диктовки ему стало значительно комфортнее общаться с людьми. «Я могу сказать всё, что приходит в голову, и это происходит легко. Это важнее, чем кажется, потому что узкое место — это не скорость печати, а когнитивная нагрузка, связанная с переводом мыслей в нажатия клавиш», — пишет автор.
По словам Валаускаса, с диктовкой ему стало проще поддерживать рабочий ритм, будучи постоянно в движении. «Вам даже не нужно сидеть за столом. Я перепрограммировал презентационный кликер (лазерную указку с конфигурацией Karabiner-Elements) так, чтобы одна кнопка запускала Fn+Space (активирует Wispr Flow), а другая — Enter. Я могу ходить по комнате, нажимать кнопку, говорить, снова нажимать кнопку, и текст появляется. Если я хочу отправить сообщение, я нажимаю другую кнопку. Это самый ленивый и эффективный метод ввода, который я когда-либо использовал», — пояснил он. Разработчик предоставил код:
{
"description": "Laser Pointer Remaps",
"manipulators": [
{
"type": "basic",
"from": {
"key_code": "tab"
},
"to": [
{
"key_code": "spacebar",
"modifiers": ["fn"]
}
],
"conditions": [
{
"type": "device_if",
"identifiers": [
{
"vendor_id": 4643,
"product_id": 15975
}
]
}
]
},
{
"type": "basic",
"from": {
"key_code": "down_arrow"
},
"to": [
{
"key_code": "return_or_enter"
}
],
"conditions": [
{
"type": "device_if",
"identifiers": [
{
"vendor_id": 4643,
"product_id": 15975
}
]
}
]
}
]
}
Валаускас также применяет API для преобразования речи в текст Voxtral Transcribe 2 от компании Mistral. Он предлагает транскрипцию на 13 языках с контекстной привязкой и временными метками на уровне слов. Стоимость составляет $0,003 в минуту для пакетного API и $0,006 в минуту для API реального времени. Для сравнения, транскрипция одного часа аудио стоит $0,18 с пакетным API или $0,36 с API реального времени. Тот объём, который наговорил разработчик, он оценивает в 1888 минут речи, а транскрипция бы обошлась примерно в $5,66 с пакетным API или $11,33 с API реального времени. По его словам, это дешевле, чем месяц использования Wispr Flow Pro за $15. Voxtral можно разместить на собственном сервере, поскольку веса модели реального времени открыты под Apache 2.0.
Разработчик отмечает, что сам Wispr Flow, похоже, в настоящее время использует Whisper.
Для тестирования API Voxtral Валаускас создал [3] простую тестовую страницу в браузере. При вводе API-ключа Mistral и удержании кнопки там можно надиктовать текст и получить расшифровку с временными метками, метками говорящих и необработанным JSON. API-ключ хранится в localStorage браузера, а аудио отправляется напрямую в API Mistral. Разработчик опубликовал [4] исходный код на GitHub.
В процессе разработки Валаускас заметил, что Voxtral работает заметно быстрее, чем Wispr Flow. Во втором случае каждые 30-40 сообщений приходится ждать несколько секунд, пока завершится транскрипция, а каждые 60-70 сообщений завершались с выводом ошибки [5]. API Voxtral работает гораздо быстрее, отмечает он.
Подробнее о том, как работает Voxtral, можно почитать здесь [6].
Автор: maybe_elf
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25222
URLs in this post:
[1] рассказал: https://modulovalue.com/blog/voxtral-transcribe-and-wispr-flow/
[2] Image: https://sourcecraft.dev/
[3] создал: https://modulovalue.com/voxtral-transcribe-test/
[4] опубликовал: https://github.com/modulovalue/voxtral-transcribe-test
[5] ошибки: http://www.braintools.ru/article/4192
[6] можно почитать здесь: https://habr.com/ru/companies/bothub/news/928250/
[7] Источник: https://habr.com/ru/news/993008/?utm_source=habrahabr&utm_medium=rss&utm_campaign=993008
Нажмите здесь для печати.