2025年4月,亚马逊云科技推出了第一代Amazon Nova Sonic,旨在攻克实现真正流畅语音交互的核心难题——保留声学语境,使语音回复不仅能匹配用户的说话内容,更能契合其表达方式。
在re:Invent 2025,亚马逊云科技推出了Amazon Nova 2 Sonic,这款语音到语音基础模型在前代基础上全面升级,进一步提升了模型的智能水平与自主交互能力,拓展了语言支持范围,并新增多项实用功能,从而实现更贴合人类直觉、更加自然流畅的语音交互体验。
Amazon Nova 2 Sonic生成的语音极具表现力,在所有支持的语言中均提供原汁原味、富有感染力的男声与女声两种音色。在对话过程中,它能自然地实现轮流发言,即便用户中途打断插话,也能无缝衔接、妥善处理。在人类偏好性测评中,就整体聆听感受而言,相较其他主流模型,听众始终更青睐Amazon Nova 2 Sonic的语音输出效果。

Amazon Nova 2 Sonic展现出了强大的智能性能与更可靠的自主决策与行动能力,这得益于它在多个关键评估指标上的全面优化与提升:
- 在Big Bench Audio(一款基于音频输入评估推理能力的数据集)测试中,该模型的性能表现优于其他主流对话式AI模型。
- 其BFCL基准测试得分印证了该模型在函数调用方面具备更高的准确性与稳定性。
- ComplexFuncBench测试结果则体现出它在处理多步骤、强约束任务方面的强大能力。
- 亚马逊云科技通过Common Voice验证了该模型的自动语音识别(ASR)准确率实现提升,并借助指令遵循评估(IFEval)证明了其在执行详尽结构化指令时的精准度更高。

语音理解能力升级
Amazon Nova 2 Sonic的底层语音识别能力得到了显著增强。该模型现在能够更精准地处理字母数字混合输入、简短语音指令以及8千赫兹的电话语音输入。同时,在应对不同口音与背景噪音时,该模型也展现出更强的鲁棒性,这种稳定可靠性对于模型的实际落地部署至关重要。
多语种语音助力拓展全球覆盖范围
Amazon Nova 2 Sonic最重大的更新之一,便是拓展了语言支持范围。除原来支持的英语、法语、意大利语、德语和西班牙语外,Amazon Nova 2 Sonic现已新增支持葡萄牙语和印地语。
除多语言支持外,Amazon Nova 2 Sonic还推出了多语言语音功能,即单个语音角色可在同一段对话中切换不同语言。以Tiffany语音为例,它能够在单次交互中流畅切换所有支持的语言。该功能具备先进的语码转换能力(语码转换是语言学中描述同一句子内混合使用多种语言的现象的专业术语),可自然处理混合语言语句。例如,当用户从一轮对话切换到下一轮对话时更换了语言,系统能够以用户偏好的语言进行回应。
对于开发者而言,这意味着他们无需为每种语言单独配置语音模型,即可构建服务全球用户的应用程序。例如,一款客户支持应用程序能够承接开场为英语、中途又切换为西班牙语的对话,且全程保持一致的对话流畅度与语音特性。
自然流畅的轮流发言机制
通过可配置的语音活动检测灵敏度,对话中的轮流发言机制得到了优化升级。开发者可根据具体使用场景,将灵敏度设置为高、中、低三档。高灵敏度模式可实现最快响应速度,低灵敏度模式则能为用户留出更充裕的表达时间。该功能实用性极强,例如可应用于教育类应用,或是为有不同沟通偏好的用户提供更适配的对话式AI服务。
无缝跨模态交互
借助跨模态支持功能,用户可在同一会话中自由切换文本与语音输入方式。这一功能对于需要混合使用语音与文字发起请求的应用场景极具价值,比如用户快速口述问题,同时以文字形式输入复杂的地址信息或技术参数。
该功能实现了跨模态的上下文连贯性,用户可以输入文字发起对话,获取语音回复后,再切换为语音输入,全程无需担心对话中断。这一设计能够打造出更流畅、更灵活的交互体验,精准适配用户的实际沟通习惯。
现在,开发者可借助跨模态功能,通过文本指令触发模型,在对话初始阶段播报个性化欢迎语(实现模型主动开场交互),也可利用代表按键音的文本元数据操控交互式语音应答(IVR)系统。例如,可以借助Amazon Nova 2 Sonic发起外呼,代用户完成预订操作或录制语音留言。
先进的多Agents协作能力
Amazon Nova 2 Sonic新增异步工具调用功能,优化了基于语音的对话式AI处理复杂多步骤任务的能力。当模型需要调用外部工具或服务时,无需暂停对话,而是让工具在后台运行的同时,持续响应用户新输入。
实际应用流程如下:用户先询问“天气如何?”,随即紧接着又问“我任务清单里的下一项是什么?”。Amazon Nova 2 Sonic会同步处理这些请求,立即回应其中一个问题,待相关工具返回结果后,再进一步提供天气信息与任务详情。
正如我们在日常交谈中能够自然应对多个并行话题一样,该功能可支持更复杂的交互场景,不仅能够同时处理多项不相关任务,还能始终保持与用户的顺畅互动和高效响应。
增强的电话功能与平台集成能力
考虑到众多对话式AI应用需要跨不同通信渠道运行,Amazon Nova 2 Sonic现已支持直接集成Amazon Connect、Vonage、Twilio及Audiocodes等主流电话服务商,以及LiveKit、Pipecat等媒体平台。
这些集成功能可以妥善解决电话端交互的各类复杂技术需求,例如音频编解码器优化、会话生命周期管理、双向输入输出事件处理,以及电话系统所面临的声学难题。对于开发者而言,这无疑是一大福音——无需处理底层复杂的电话通信技术细节,即可直接将基于Amazon Nova 2 Sonic构建的应用程序,部署至现有呼叫中心基础设施,或是轻松构建全新的电话端服务。
开始使用Amazon Nova 2 Sonic
用户可通过Amazon Bedrock(仅海外业务使用)调用Amazon Nova 2 Sonic,对应的模型ID为amazon.nova-2-sonic-v1:0。如果您已部署了初代Amazon Nova Sonic,升级至新版本的操作十分简便——只需在现有代码中更新模型ID,无需额外配置,您的应用程序即可立即享受升级版本的各项优化功能。
该模型沿用了前代Amazon Nova Sonic的双向流式API,因此您现有的集成模式与事件处理代码均可继续正常运行。跨模态输入、可配置的轮流发言机制等新增功能,可通过额外的参数与事件接口实现,您可逐步采用这些功能。
如需获取多种编程语言的代码示例,请参阅《Amazon Nova Sonic语音转语音模型示例》。
《Amazon Nova Sonic语音转语音模型示例》
https://github.com/aws-samples/amazon-nova-samples/tree/main/speech-to-speech
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。