总部位于巴黎的初创公司 Mistral AI 自诩为欧洲的 OpenAI,该公司于周三发布了两款语音转文本模型。该公司表示,这两款模型能够比市场上任何其他产品更快、更准确、更便宜地转录音频,而且完全可以在智能手机或笔记本电脑上运行。
此次发布标志着语音 AI 领域竞争日益激烈的最新进展。企业客户将语音 AI 视为从自动化客户服务到实时翻译等各个环节的关键技术。但与美国科技巨头的产品不同,Mistral 的新款Voxtral Transcribe 2型号旨在处理敏感音频,而无需将其传输到远程服务器——这一特性对于医疗保健、金融和国防等受监管行业的公司而言可能至关重要。
Mistral 将其新的 AI 转录技术分为批量处理和实时应用两部分
Mistral 在 Voxtral Transcribe 2 品牌下推出了两款不同的型号,每款都是针对不同的使用场景而设计的。
- Voxtral Mini Transcribe V2是一款批量转录软件,可批量处理预录音频文件。该公司称其拥有所有转录服务中最低的单词错误率,并通过 API 提供,价格为每分钟 0.003 美元,约为主要竞争对手价格的五分之一。该软件支持 13 种语言,包括英语、普通话、日语、阿拉伯语、印地语和多种欧洲语言。
- Voxtral Realtime能够处理实时音频,其延迟可配置至 200 毫秒。Mistral 声称,对于那些即使两秒的延迟也无法接受的应用场景来说,这项技术是一项突破性的进步,例如实时字幕、语音助手和实时客户服务增强。

该实时模型采用Apache 2.0开源许可证,这意味着开发者可以从Hugging Face下载模型权重,进行修改并部署,而无需向 Mistral 支付许可费。对于不愿自行搭建基础设施的公司,API 访问费用为每分钟 0.006 美元。
Mistral公司负责科学运营的副总裁Stock表示,Mistral寄希望于开源社区来扩大该模式的影响范围。“开源社区在应用方面极富想象力,”他说,“我们很期待看到他们的成果。”
为什么设备端 AI 处理对处理敏感数据的企业至关重要
设计足够小巧、可在本地运行的模型,这一决定反映了企业市场发展方向的考量。随着企业将 AI 融入到越来越敏感的工作流程中,例如转录医疗咨询、财务咨询电话、法律证词——数据的流向已成为决定性因素。
Stock在采访中生动地描述了这个问题。他解释说,目前带有音频功能的笔记应用程序经常会以各种问题方式拾取环境噪音:“它可能会拾取背景音乐的歌词,可能会拾取其他人的对话,甚至可能会因为背景噪音而产生幻觉。”
Mistral 在训练数据整理和模型架构方面投入巨资,以解决这些问题。“我们花费大量时间来完善数据以及训练模型的方式,从而增强模型的稳健性,”Stock 说。
该公司还添加了一些企业级功能,而其美国竞争对手在这方面进展缓慢。上下文偏好功能允许客户上传专业术语列表,例如医学术语、专有产品名称、行业缩写,模型在转录含义模糊的音频时会自动优先使用这些术语。与需要重新训练模型的微调不同,上下文偏好功能通过一个简单的 API 参数即可实现。
“你只需要一个文本列表,”Stock解释说。“然后模型会自动将转录结果偏向这些缩写词或这些奇怪的词语。而且无需任何尝试,无需重新训练,也不需要任何特殊的东西。”
从工厂车间到呼叫中心,Mistral 针对高噪音工业环境
Stock描述了两种场景,体现了Mistral对该技术部署方式的设想。
第一个例子是工业审计。想象一下,技术人员在制造工厂里走来走去,一边检查重型机械,一边在嘈杂的工厂噪音中大声报告。“最终,想象一下,就像一份完美的、带有时间戳的笔记,可以清楚地记录是谁说了什么,也就是所谓的‘分词’——而且这份笔记还要非常可靠,”斯托克说道。挑战在于如何处理他所说的“除了这些人之外,没人能拼写出来的奇怪技术术语”。
第二个应用场景针对客户服务运营。当来电者联系支持中心时,Voxtral Realtime 可以实时转录对话内容,并将文本发送到后端系统,以便在来电者说完问题之前调出相关的客户记录。
“在顾客说完话、停止抱怨之前,操作员就能在屏幕上看到状态,”Stock解释说。“这意味着你可以直接回复说,‘好的,我看到了状态。让我修改地址,然后把货寄回去。’”
他估计,这可以将典型的客户服务互动从多次来回交流减少到仅两次互动:客户解释问题,然后客服人员立即解决问题。
Mistral 将自身定位为面向企业客户的以隐私为先的替代方案
Mistral 在 AI 领域占据着一个独特的地位。这家公司由 Meta 和 Google DeepMind 的校友于 2023 年创立,已融资超过 20 亿美元,目前估值约为136 亿美元。然而,它所拥有的计算资源仅为美国超大规模数据中心的一小部分,并且其战略的核心是效率而非蛮力。
Stock表示:“我们发布的模型是企业级的、行业领先的、高效的,尤其是在成本方面,可以嵌入到边缘,解锁隐私、解锁控制、提高透明度。”
这种做法尤其引起了对依赖美国技术持谨慎态度的欧洲客户的共鸣。今年1月,法国武装部队部签署了一项框架协议,允许法国军方使用 Mistral 的 AI 模型——该协议明确要求将模型部署在法国控制的基础设施上。
数据隐私仍然是企业采用语音 AI 的最大障碍之一。对于金融、制造、医疗保健、保险等敏感行业的公司而言,将音频数据发送到外部云服务器通常是行不通的。这些信息必须保留在设备本身或公司自身的基础设施内。
信任将决定企业语音 AI 领域的最终胜负
Stock 预测 2026 年将是“笔记元年”——届时 AI 转录将变得足够可靠,用户将完全信任它。
“你需要信任这个模型,而这个模型基本上不能出错,否则你就会失去对产品的信任,停止使用它,”他说。“这个门槛非常非常高。”
Mistral 是否已经跨越了这一门槛还有待观察。企业客户将是最终的评判者,他们往往行动谨慎,会在将预算和工作流程投入新技术之前,先用实际数据验证其宣称的功能。Mistral Studio中的音频测试平台今天正式上线,开发者可以使用自己的文件测试Voxtral Transcribe 2 。
但 Stock 的更广泛论点值得关注。在当今市场,美国巨头们竞相投入数十亿美元打造规模越来越大的模型,而 Mistral 则做出了不同的押注:在 AI 时代,规模更小、更本地化的方案或许能够战胜规模更大、更远距离的方案。对于那些终日担忧数据主权、监管合规和供应商锁定等问题的管理者而言,这一论点或许比任何基准都更具说服力。
企业语音 AI 领域的竞争不再仅仅关乎谁能构建最强大的模型,而是关乎谁能构建出你愿意让它倾听的模型。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。