语音模型
-
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频
微软发布了 VibeVoice-ASR,它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型,可以一次性处理…
-
NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型
NVIDIA 研究人员发布了 PersonaPlex-7B-v1,这是一个全双工语音到语音(Speech-to-Speech)对话模型,旨在实现具有精确角色控制的自然语音交互。 从…
-
Hume AI 准备推出 Octave 2 多语言文本转语音模型
Hume AI 正在内部测试 Octave 2 Multilingual,这是一种文本转语音模型,具有跨 10 多种语言的低延迟语音合成功能,可实现实时音频。 Hume AI 正准…