即将发布的FFmpeg 8.0多媒体库版本几乎每天都会更新。新版本中新增的功能是 Whisper 音频过滤器,它利用 OpenAI 的 Whisper 模型提供自动语音识别/转录功能。
对于那些不了解的人来说,Whisper 是一个基于海量数据集训练的自动语音识别模型,并且已被证明非常强大。当系统中存在 Whisper.cpp 库以支持 OpenAI Whisper 模型时,可以使用“–enable-whisper”库构建 FFmpeg 8.0。它还提供了可选的 GPU 加速和各种可调参数,可用于使用 FFmpeg 运行自动转录,将文本转储到 SRT 文件,将输出以 JSON 格式发送到 HTTP Web 服务,以及其他功能。

对上周末合并到 FFmpeg 的 OpenAI Whisper 音频过滤器支持感兴趣的人可以通过此 Git 提交找到。
FFmpeg 8.0 应该会在几周内发布,同时还会为这个广泛使用的开源多媒体库带来许多 Vulkan 加速增强功能、新的 CPU 性能优化以及各种其他改进。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/60580.html