- BrainTools - https://www.braintools.ru -

Разработчик за месяц надиктовал почти 250 тысяч слов для преобразования речи в текст

Автор блога Modulovalue Модестас Валаускас рассказал [1], что за последние 39 дней он надиктовал 243 554 слова, что примерно равно объёму двух книг. Он использовал тестовое приложение для диктовки Wispr Flow.

Разработчик за месяц надиктовал почти 250 тысяч слов для преобразования речи в текст - 1

Сервис работает в фоновом режиме и совместим с любым приложением. Для его использования достаточно удерживать клавишу. Wispr Flow автоматически редактирует слова-паразиты, добавляет знаки препинания и подстраивает тон и форматирование под используемое приложение. В нём есть собственный словарь, поэтому сервис изучает терминологию, что важно при работе со специфическими терминами.

«Это действительно изменило мою жизнь. Цифры: 39-дневная ежедневная серия, 129 слов в минуту (2% лучших пользователей Flow), 243 554 слова, продиктованных в 58 различных приложениях», — отмечает пользователь.

Валаускас говорит, что после пяти недель постоянной диктовки ему стало значительно комфортнее общаться с людьми. «Я могу сказать всё, что приходит в голову, и это происходит легко. Это важнее, чем кажется, потому что узкое место — это не скорость печати, а когнитивная нагрузка, связанная с переводом мыслей в нажатия клавиш», — пишет автор.

По словам Валаускаса, с диктовкой ему стало проще поддерживать рабочий ритм, будучи постоянно в движении. «Вам даже не нужно сидеть за столом. Я перепрограммировал презентационный кликер (лазерную указку с конфигурацией Karabiner-Elements) так, чтобы одна кнопка запускала Fn+Space (активирует Wispr Flow), а другая — Enter. Я могу ходить по комнате, нажимать кнопку, говорить, снова нажимать кнопку, и текст появляется. Если я хочу отправить сообщение, я нажимаю другую кнопку. Это самый ленивый и эффективный метод ввода, который я когда-либо использовал», — пояснил он. Разработчик предоставил код:

{
  "description": "Laser Pointer Remaps",
  "manipulators": [
    {
      "type": "basic",
      "from": {
        "key_code": "tab"
      },
      "to": [
        {
          "key_code": "spacebar",
          "modifiers": ["fn"]
        }
      ],
      "conditions": [
        {
          "type": "device_if",
          "identifiers": [
            {
              "vendor_id": 4643,
              "product_id": 15975
            }
          ]
        }
      ]
    },
    {
      "type": "basic",
      "from": {
        "key_code": "down_arrow"
      },
      "to": [
        {
          "key_code": "return_or_enter"
        }
      ],
      "conditions": [
        {
          "type": "device_if",
          "identifiers": [
            {
              "vendor_id": 4643,
              "product_id": 15975
            }
          ]
        }
      ]
    }
  ]
}
Разработчик за месяц надиктовал почти 250 тысяч слов для преобразования речи в текст - 2 [2]

Валаускас также применяет API для преобразования речи в текст Voxtral Transcribe 2 от компании Mistral. Он предлагает транскрипцию на 13 языках с контекстной привязкой и временными метками на уровне слов. Стоимость составляет $0,003 в минуту для пакетного API и $0,006 в минуту для API реального времени. Для сравнения, транскрипция одного часа аудио стоит $0,18 с пакетным API или $0,36 с API реального времени. Тот объём, который наговорил разработчик, он оценивает в 1888 минут речи, а транскрипция бы обошлась примерно в $5,66 с пакетным API или $11,33 с API реального времени. По его словам, это дешевле, чем месяц использования Wispr Flow Pro за $15. Voxtral можно разместить на собственном сервере, поскольку веса модели реального времени открыты под Apache 2.0.

Разработчик отмечает, что сам Wispr Flow, похоже, в настоящее время использует Whisper. 

Для тестирования API Voxtral Валаускас создал [3] простую тестовую страницу в браузере. При вводе API-ключа Mistral и удержании кнопки там можно надиктовать текст и получить расшифровку с временными метками, метками говорящих и необработанным JSON. API-ключ хранится в localStorage браузера, а аудио отправляется напрямую в API Mistral. Разработчик опубликовал [4] исходный код на GitHub.

В процессе разработки Валаускас заметил, что Voxtral работает заметно быстрее, чем Wispr Flow. Во втором случае каждые 30-40 сообщений приходится ждать несколько секунд, пока завершится транскрипция, а каждые 60-70 сообщений завершались с выводом ошибки [5]. API Voxtral работает гораздо быстрее, отмечает он.

Подробнее о том, как работает Voxtral, можно почитать здесь [6].

Автор: maybe_elf

Источник [7]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25222

URLs in this post:

[1] рассказал: https://modulovalue.com/blog/voxtral-transcribe-and-wispr-flow/

[2] Image: https://sourcecraft.dev/

[3] создал: https://modulovalue.com/voxtral-transcribe-test/

[4] опубликовал: https://github.com/modulovalue/voxtral-transcribe-test

[5] ошибки: http://www.braintools.ru/article/4192

[6] можно почитать здесь: https://habr.com/ru/companies/bothub/news/928250/

[7] Источник: https://habr.com/ru/news/993008/?utm_source=habrahabr&utm_medium=rss&utm_campaign=993008

www.BrainTools.ru

Rambler's Top100