FFmpeg 8.0 合并 OpenAI Whisper Filter，实现自动语音识别

追风者 • 2025年8月14日上午10:14 • 行业资讯

即将发布的FFmpeg 8.0多媒体库版本几乎每天都会更新。新版本中新增的功能是 Whisper 音频过滤器，它利用 OpenAI 的 Whisper 模型提供自动语音识别/转录功能。

对于那些不了解的人来说，Whisper 是一个基于海量数据集训练的自动语音识别模型，并且已被证明非常强大。当系统中存在 Whisper.cpp 库以支持 OpenAI Whisper 模型时，可以使用“–enable-whisper”库构建 FFmpeg 8.0。它还提供了可选的 GPU 加速和各种可调参数，可用于使用 FFmpeg 运行自动转录，将文本转储到 SRT 文件，将输出以 JSON 格式发送到 HTTP Web 服务，以及其他功能。

FFmpeg 8.0 合并 OpenAI Whisper Filter，实现自动语音识别

对上周末合并到 FFmpeg 的 OpenAI Whisper 音频过滤器支持感兴趣的人可以通过此 Git 提交找到。

FFmpeg 8.0 应该会在几周内发布，同时还会为这个广泛使用的开源多媒体库带来许多 Vulkan 加速增强功能、新的 CPU 性能优化以及各种其他改进。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/60580.html

赞 (0)

追风者认证作者

0

行业资讯

GB Labs 通过其全球统一文件系统应对媒体的分布式工作流程挑战

GB Labs 宣布发布第 2 代 Unify Hub，这是一个全球统一的文件系统，允许用户优化、调整和保护他们的本地、云和远程工作流程。 GB Labs 首席执行官兼…

海外观察
2023年3月22日
行业资讯

Qt 6.10 Beta 发布，搭载 Qt 多媒体原生 PipeWire 音频后端

Qt 6.10 Beta 1 昨日发布，标志着这款开源跨平台工具包的下一个里程碑。Qt 6.10 并未引入任何新模块，但弃用了 Qt Charts 和 Qt Data Visual…

追风者
2025年6月18日
行业资讯

Zoom宣布增强其人工智能驱动的客户体验 (CX) 套件和新的定价计划

2023年12月06日，Zoom Video Communications, Inc.（纳斯达克股票代码：ZM）宣布了其人工智能驱动的客户体验（CX）套件的增强功能，以及预计将在未…

CTI观察
2023年12月7日
行业资讯

人工智能仅通过打字声音即可识别并窃取信息准确率高达95%

研究发现，AI经发展到可以透过聆听视讯软件Zoom和其他录音设备上录制的键盘打字声，来辨识出输入电脑的资讯和密码。且根据实测，精准度最高可达到95%。据报导，这项研究发表于IEE…

追风者
2023年8月11日
行业资讯

Kore.ai在Genesys AppFoundry上推出由人工智能驱动的会话语音网关

2023年10月10日/美通社/ — 生成式和对话式人工智能平台及解决方案领域的全球领导者 Kore.ai 宣布，Genesys Cloud CX 的 Kore.ai …

海外观察
2023年10月11日
行业资讯

LeapXpert 获得 1.8 亿美元融资，用于开发受监管的 AI 消息传递功能

LeapXpert 已获得 1.8 亿美元的增长融资，用于拓展其受控企业消息传递功能。本轮融资由Riverwood Capital领投， Portage Ventures也参与了投…

CTI观察
2026年7月14日