语音模型

技术文章

论文解读｜WavAlign：让语音模型既会“想”，也会“说”

端到端语音对话模型最让人头疼的地方，是“聪明”和“会说”常常互相拉扯。WavAlign 给出的答案很朴素：不要把同一个偏好奖励粗暴地砸到所有 token 上。把语义交给偏…

AIGC
2026年7月23日
技术文章

Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型

Miso Labs 发布了 MisoTTS，这是一款开放权重、拥有 80 亿参数的文本转语音模型。它能够根据文本和音频上下文生成富有表现力的语音。该模型采用残差矢量量化 (RVQ)…

AIGC
2026年6月5日
技术文章

2026 年的海外 AI 语音模型：实时翻译与语音克隆

AI 语音模型正在飞速发展，为各行各业的通信和自动化带来了突破性进展。MattVidPro 最近的一份分析报告重点关注了该领域的一些领军企业，包括 OpenAI、Google、XA…

AIGC
2026年5月13日
行业资讯

Seed 全双工语音大模型发布：懂倾听、抗干扰，走向更自然的交互

今天，字节跳动 Seed 正式推出原生全双工语音大模型 Seeduplex。相比于上一代半双工豆包端到端语音模型，Seeduplex 基于“边听边说”的全新框架设计，交互体验的自然…

大厂Animal
2026年4月9日
技术文章

谷歌发布 Gemini 3.1 Flash Live：面向AI代理的实时多模态语音模型

谷歌已通过 Google AI Studio 中的 Gemini Live API 向开发者发布了 Gemini 3.1 Flash Live 预览版。该模型旨在实现低延迟、更自然…

AIGC
2026年3月27日
技术文章

ICASSP 2026｜迈向构建低资源语种的多任务语音理解模型

为解决低资源语言 SLLMs 多任务理解的核心难题，本文以泰语为典型研究对象，提出一套集专用语音编码器、高效通用对齐方法、规模化数据生成方案于一体的综合性解决方案。

音频技术
2026年3月19日
技术文章

Google AI 发布 WAXAL：用于训练自动语音识别和文本转语音模型的多语言非洲语音数据集

语音技术仍然面临数据分布问题。自动语音识别 (ASR) 和文本转语音 (TTS) 系统在高资源语言方面取得了快速发展，但许多非洲语言在开放语料库中的代表性仍然不足。谷歌及其合作者组…

AIGC
2026年3月19日
技术文章

Mistral 发布 Voxtral Transcribe 2，一款成本极低的开源语音模型

总部位于巴黎的初创公司 Mistral AI 自诩为欧洲的 OpenAI，该公司于周三发布了两款语音转文本模型。该公司表示，这两款模型能够比市场上任何其他产品更快、更准确、更便宜地…

AIGC
2026年2月5日
技术文章

微软发布 VibeVoice-ASR：一种统一的语音转文本模型，旨在一次性处理长达 60 分钟的音频

微软发布了 VibeVoice-ASR，它是 VibeVoice 系列开源前沿语音 AI 模型的一部分。VibeVoice-ASR 被描述为一个统一的语音转文本模型，可以一次性处理…

AIGC
2026年1月23日
技术文章

NVIDIA发布PersonaPlex-7B-v1：专为自然全双工对话设计的实时语音到语音模型

NVIDIA 研究人员发布了 PersonaPlex-7B-v1，这是一个全双工语音到语音（Speech-to-Speech）对话模型，旨在实现具有精确角色控制的自然语音交互。从…

AIGC
2026年1月19日
行业资讯

Hume AI 准备推出 Octave 2 多语言文本转语音模型

Hume AI 正在内部测试 Octave 2 Multilingual，这是一种文本转语音模型，具有跨 10 多种语言的低延迟语音合成功能，可实现实时音频。 Hume AI 正准…

AIGC
2025年9月30日