由苹果公司和卡内基梅隆大学的人工智能研究人员创立的人工智能语音基础设施公司 CAMB.AI 宣布推出 MARS8。这是首个并非设计成单一模型,而是设计成一系列专为实际生产环境而构建的专用架构的文本转语音 (TTS) 系统。

自 2023 年以来,CAMB.AI 的 MARS 引擎已为 AI 语音应用提供支持,并通过 NASCAR、博通、澳大利亚网球公开赛、欧洲歌唱大赛、IMAX 和 Comcast NBCUniversal 等合作伙伴,覆盖超过 2 亿用户。
在将语音 AI 应用于 150 多种语言的高风险生产环境后,该团队发现了当前市场的一个关键缺陷:没有一种 TTS 架构能够胜任所有用例。
“市场迫使开发者在速度、质量、准确性和成本之间做出选择。我们意识到这是一个伪命题,” CAMB.AI 的首席技术官 Akshat Prakash表示。“实时语音助手需要低于 150 毫秒的延迟。电影配音流程需要导演级别的情感控制。汽车系统有严格的内存限制。你不可能用一个通用 API 来同时满足这三个需求。”
隆重推出 MARS8 系列
MARS8 摒弃了“黑盒”API 模型,提供了四种不同的架构,每种架构都针对特定的生产限制进行了优化:
- MARS-Flash:超低延迟(TTFB 低于 150 毫秒),专为实时客服和呼叫中心设计。针对 Blackwell GPU、L4 和 L40S 进行了优化。
- MARS-Pro:用于富有表现力的配音和数字媒体的主力军,兼顾保真度和速度。
- MARS-Instruct:为高端电影制作提供导演级控制,允许独立调整说话人和韵律。
- MARS-Nano:一种高效的 5000 万参数模型,适用于计算资源受限的设备端应用。
以计算为先的商业模式
MARS8 采用“计算优先”模式,旨在颠覆语音 AI 的单位经济效益。目前“按字符付费”的 API 定价模式会严重损害规模化应用的利润空间。CAMB.AI 正在改变这一现状。
MARS8 允许企业客户在其自身的基础设施上运行模型,无论是 AWS Bedrock、Google Cloud Vertex AI,还是 Modal、Baseten 等专用 GPU 平台。MARS8 将在 25 个以上的计算平台和设备端 SDK 上发布,这在语音 AI 领域具有里程碑式的意义。
该公司表示:“基于代币的定价模式呈线性增长。基于计算的定价模式即使在使用量激增的情况下也能保持成本稳定,从而为企业节省高达 90% 的成本。此外,通过在您自己的区域部署,您可以控制最低延迟,并确保数据符合您的合规要求。”
启动生态系统
MARS8 的推出依托强大的合作伙伴生态系统,弥合了基础设施和应用之间的差距:
- 计算合作伙伴:确保 MARS8 在开发人员已经使用的硬件上运行(Google Cloud、AWS、Azure(即将推出)、Hathora、Modal、Baseten 等)。
- 语音代理平台:将 MARS-Flash 直接集成到顶级对话式 AI 提供商的工作流程中,以便立即部署到呼叫中心。
MARS8 标志着生产级语音 AI 的一个转折点。过去那种强行将所有用例套用单一通用模型的时代已经一去不复返了。无论您是开发实时语音代理、为电影配音,还是构建设备端助手,现在您都可以拥有专为您的需求量身定制的架构,而不是妥协的产物。而且,凭借计算优先的定价模式,扩展规模不再意味着利润损失。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/64442.html