Грядущий релиз FFmpeg 8.0 добавит фильтр Whisper от OpenAI для распознавания речи

Грядущий релиз мультимедийной библиотеки FFmpeg 8.0 продолжает становиться все более интересным практически с каждым днем. Новейшей функцией, вошедшей в этот релиз, является аудиофильтр Whisper для использования модели Whisper от OpenAI для автоматического распознавания речи / транскрипции.

Для тех, кто не знает, Whisper – это модель автоматического распознавания речи, обученная на очень большом наборе данных и доказавшая свою исключительную способность. FFmpeg 8.0 может быть собран с библиотекой --enable-whisper, если в системе присутствует библиотека Whisper.cpp для поддержки модели OpenAI Whisper. Имеется дополнительное GPU-ускорение и различные настройки, которые могут быть использованы для последующего запуска автоматической транскрипции с FFmpeg для сброса текста в SRT-файл, отправки вывода в формате JSON на веб-сервис HTTP и других возможностей.

Те, кто интересуется поддержкой аудиофильтра OpenAI Whisper, который был добавлен в FFmpeg в выходные, могут найти его в этом Git-коммите.

FFmpeg 8.0 должен выйти в течение нескольких недель и также будет содержать ряд улучшений ускорения Vulkan, новые оптимизации производительности CPU и множество других улучшений для этой широко используемой мультимедийной библиотеки с открытым исходным кодом.