FFmpeg добавит функцию расшифровки аудио через OpenAI Whisper

Стало известно, что мультимедийный инструмент FFmpeg ^[1] получит встроенную возможность ^[2] автоматической расшифровки речи, используя искусственный интеллект ^[3] Whisper от OpenAI. В данный момент готовится релиз FFmpeg 8.0, и вместе с ним в пакет войдёт и новая функция транскрибации.

FFmpeg — это проект с открытым исходным кодом, настоящий швейцарский нож для работы с мультимедиа. Он умеет кодировать и декодировать видео‑ и аудиофайлы, вырезать из видео нужные фрагменты, собирать клипы из последовательности изображений. Его можно запускать как самостоятельную утилиту в командной строке, а также использовать внутри приложений и веб‑сервисов. Прямо или косвенно от FFmpeg выигрывают миллионы пользователей.

Теперь в FFmpeg появится поддержка Whisper — системы распознавания речи, способной работать примерно с 100 языками, выдавать очень точные тексты просто по загруженному аудиофайлу, а также переводить текст на английский и генерировать черновые субтитры. Модели Whisper распространяются бесплатно: их можно скачать и запускать локально на своём компьютере, а для самой «продвинутой», whisper‑large‑v3, понадобится 12 ГБ видеопамяти.

Чтобы включить новую функцию, при сборке FFmpeg достаточно указать флаг ‑enable‑whisper. Для этого на ПК должна быть установлена библиотека whisper.cpp ^[4], которая даёт возможность интегрировать Whisper в различные приложения.

Система поддерживает вывод результатов в форматах JSON и SRT, а также может использовать ускорение на GPU. Исходный код функции доступен по ссылке ^[5]. Кроме того, ранее автор патча Витторио Пальмизано подготовил статью ^[6] о том, как запустить транскрипцию в FFmpeg всего одной командой.

На момент написания заметки релиз FFmpeg 8.0 ещё в процессе подготовки. Если всё пойдёт по плану ^[7], он состоится уже в августе 2025 года.

Чтобы расшифровывать аудио, я рекомендую модели AssemblyAI, доступные в BotHub ^[8], которые опережают точность Whisper на несколько процентов.

Автор: dmitrifriend

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18388

URLs in this post:

[1] FFmpeg: https://ffmpeg.org/

[2] получит встроенную возможность: https://ffmpeg.org/pipermail/ffmpeg-devel/2025-July/346391.html

[3] интеллект: http://www.braintools.ru/article/7605

[4] whisper.cpp: https://github.com/ggml-org/whisper.cpp

[5] доступен по ссылке: https://git.ffmpeg.org/gitweb/ffmpeg.git/commit/13ce36fef98a3f4e6d8360c24d6b8434cbb8869b

[6] подготовил статью: https://medium.com/@vpalmisano/run-whisper-audio-transcriptions-with-one-ffmpeg-command-c6ecda51901f

[7] по плану: https://ffmpeg.org/pipermail/ffmpeg-devel/2025-July/347010.html

[8] доступные в BotHub: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] Источник: https://habr.com/ru/companies/bothub/news/937654/?utm_source=habrahabr&utm_medium=rss&utm_campaign=937654

Нажмите здесь для печати.