Inworld AI 发布 TTS-1.5，用于实时、生产级语音代理

Inworld AI 推出了 Inworld TTS-1.5，这是其 TTS-1 系列的升级版，专为对延迟、质量和成本有严格要求的实时语音代理而设计。TTS-1.5 在 Artificial Analysis 的文本转语音系统中排名第一，其设计旨在比前几代产品更具表现力、更稳定，同时仍然适用于大规模消费级部署。

交互式代理的实时延迟

TTS-1.5 着重提升了 P90 首次音频延迟时间，这是衡量用户感知响应速度的关键指标。TTS-1.5 Max 的 P90 首次音频延迟时间低于 250 毫秒，TTS-1.5 Mini 的 P90 首次音频延迟时间低于 130 毫秒。据 Inworld 称，这些数值比上一代 TTS 系统快了约 4 倍。

TTS-1.5协议栈支持通过WebSocket进行流式传输，因此一旦生成第一个音频片段，合成和播放即可立即开始。实际上，这使得端到端交互延迟与运行在现代GPU上的典型实时语言模型响应延迟处于同一水平，这对于TTS作为完整代理流程的一部分至关重要。

Inworld 建议大多数应用场景使用 TTS-1.5 Max，因为它在 200 毫秒左右的延迟基础上，实现了更高的稳定性和音质。TTS-1.5 Mini 则专为对延迟要求极高的工作负载而设计，例如实时游戏或响应速度极快的语音助手，在这些场景中，每一毫秒都至关重要。

表现、稳定性和基准位置

TTS-1.5 在 TTS-1 的基础上进行了改进，与之前的型号相比，它的表现力提高了约 30%，稳定性提高了约 40%。

此处的表达指的是韵律、重音和情感变化等特征。稳定性则通过词错误率和长序列及不同提示下的输出一致性等指标来衡量。降低词错误率可以减少句子截断、意外词语替换或人为错误等问题，这在文本转语音（TTS）输出直接由生成的语言模型文本驱动时尤为重要。

面向消费级规模的定价与成本结构

TTS-1.5 提供两种主要配置方案：Inworld TTS-1.5 Mini 版每百万字符收费 5 美元，相当于每分钟语音约 0.005 美元；TTS-1.5 Max 版每百万字符收费 10 美元，相当于每分钟约 0.01 美元。

该成本结构使 TTS 技术能够持续应用于高使用率产品中，例如语音智能助手、教育平台或客户支持热线，同时避免 TTS 成为主导性可变成本。

多语言支持、语音克隆和部署选项

Inworld TTS-1.5 支持 15 种语言，包括英语、西班牙语、法语、韩语、荷兰语、中文、德语、意大利语、日语、波兰语、葡萄牙语、俄语、印地语、阿拉伯语和希伯来语。这使得单一的 TTS 流程无需为每个地区单独开发模型即可覆盖广泛的市场。

该系统提供即时语音克隆和专业语音克隆功能。即时语音克隆只需约 15 秒的音频即可创建自定义语音，并可通过游戏内门户和 API 直接访问。专业语音克隆至少需要 30 分钟的纯净音频，建议使用 20 分钟或更长以获得最佳效果，并针对品牌语音和不常见的口音进行克隆。

TTS-1.5 提供云 API 和本地部署两种部署方式。在本地部署模式下，完整的模型运行在客户基础设施内部，以确保数据主权和合规性。两种部署模式均保持相同的质量标准，并且该模型可与 LiveKit、Pipecat 和 Vapi 等合作伙伴平台集成，构建端到端的语音代理系统。

要点总结

Inworld TTS 1.5 提供实时性能，Max 型号的 P90 首次音频播放时间低于 250 毫秒，Mini 型号低于 130 毫秒，比上一代快约 4 倍。
该模型将表达能力提高了约 30%，稳定性提高了约 40%，词错误率降低了约 40%。
定价针对消费者规模进行了优化，TTS 1.5 Mini 每百万个字符的成本约为 5 美元，TTS 1.5 Max 每百万个字符的成本约为 10 美元，这比许多竞争系统每分钟的成本要便宜得多。
TTS 1.5 支持 15 种语言，并提供即时和专业的语音克隆功能，能够从短的参考音频或更长的录制数据集中创建自定义和品牌化的声音。
该系统既可以作为云 API 使用，也可以作为本地部署使用，并且可以与现有的语音代理堆栈集成，因此适用于需要对延迟、质量和数据控制做出明确保证的生产实时代理。

参考资料：https://inworld.ai/blog/introducing-inworld-tts-1-5

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/64451.html