语音模型
-
Seed 全双工语音大模型发布:懂倾听、抗干扰,走向更自然的交互
今天,字节跳动 Seed 正式推出原生全双工语音大模型 Seeduplex。相比于上一代半双工豆包端到端语音模型,Seeduplex 基于“边听边说”的全新框架设计,交互体验的自然…
-
谷歌发布 Gemini 3.1 Flash Live:面向AI代理的实时多模态语音模型
谷歌已通过 Google AI Studio 中的 Gemini Live API 向开发者发布了 Gemini 3.1 Flash Live 预览版。该模型旨在实现低延迟、更自然…
-
ICASSP 2026|迈向构建低资源语种的多任务语音理解模型
为解决低资源语言 SLLMs 多任务理解的核心难题,本文以泰语为典型研究对象,提出一套集专用语音编码器、高效通用对齐方法、规模化数据生成方案于一体的综合性解决方案。
-
Google AI 发布 WAXAL:用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集
语音技术仍然面临数据分布问题。自动语音识别 (ASR) 和文本转语音 (TTS) 系统在高资源语言方面取得了快速发展,但许多非洲语言在开放语料库中的代表性仍然不足。谷歌及其合作者组…
-
Mistral 发布 Voxtral Transcribe 2,一款成本极低的开源语音模型
总部位于巴黎的初创公司 Mistral AI 自诩为欧洲的 OpenAI,该公司于周三发布了两款语音转文本模型。该公司表示,这两款模型能够比市场上任何其他产品更快、更准确、更便宜地…
-
微软发布 VibeVoice-ASR:一种统一的语音转文本模型,旨在一次性处理长达 60 分钟的音频
微软发布了 VibeVoice-ASR,它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型,可以一次性处理…
-
NVIDIA发布PersonaPlex-7B-v1:专为自然全双工对话设计的实时语音到语音模型
NVIDIA 研究人员发布了 PersonaPlex-7B-v1,这是一个全双工语音到语音(Speech-to-Speech)对话模型,旨在实现具有精确角色控制的自然语音交互。 从…
-
Hume AI 准备推出 Octave 2 多语言文本转语音模型
Hume AI 正在内部测试 Octave 2 Multilingual,这是一种文本转语音模型,具有跨 10 多种语言的低延迟语音合成功能,可实现实时音频。 Hume AI 正准…