音频技术的文章 - 实时互动网个人中心 - 实时互动网

音频技术认证作者

记录音频技术开发相关内容

313 文章

4 粉丝

技术文章

缓解 TTS 的重复与漏读：用注意力引导消除语音合成中的稳定性幻觉

近年来，基于大语言模型的语音合成技术快速发展。在普通文本上，模型已经能够稳定生成自然度很高、音色也足够相似的语音。然而，一旦遇到复杂生僻词、排比句或连续重复结构，重复、漏读甚至无限…

音频技术
2026年7月28日
技术文章

以人为本的设备与始终在线的边缘 AI 音频的兴起

语音功能已正式突破智能音箱的局限。随着 AI 更深入地融入日常电子产品，音频已成为人机之间主要的、直接的交互界面。如今的消费者和企业用户期望设备能够自然地响应语音指令，即时适应复杂…

音频技术
2026年7月24日
行业资讯

XMOS推出搭载先进AI语音处理的VocalFusion XVF3620

XMOS 发布了新一代语音处理器 VocalFusion XVF3620，它将 AI 降噪技术与完整的片上语音处理流程相结合，即使在嘈杂、混响和动态环境中也能提供可靠的语音采集。该…

音频技术
2026年7月22日
技术文章

FlashTTS：面向实时语音对话的低时延流式语音合成 | Interspeech 2026

近年来，基于大语言模型（LLM）的文本转语音技术快速发展，基于大语言模型（LLM）的TTS方案已经在自然度、音色相似度和零样本音色克隆（zero-shot voice clonin…

音频技术
2026年7月20日
技术文章

STAR-VAE：让音频潜在空间「按信息重要性」排列，重建与生成双双达到 SOTA

阿里团队的最新研究 STAR-VAE 已被机器学习顶级会议 ICML 2026 接收。这项工作聚焦音频生成中一个长期被忽视、却决定效果上限的底层环节——音频 VAE（连续 toke…

音频技术
2026年7月14日
技术文章

CoCoEmo：面向人类式复杂情感表达的可组合、可控语音合成框架 | ICML 2026

CoCoEmo是一种轻量、可组合、可控的情感语音生成框架。不同于重新训练模型或设计复杂 emotion prompt，CoCoEmo 直接在预训练 hybrid TTS 模型的中间激活空间中注入 emotion steering vector，从而引导模型生成目标情感表达。

音频技术
2026年7月2日
技术文章

【论文解读】BareWave：扔掉声码器，让 AI 语音复刻“一步到位”

近年来，零样本语音复刻技术快速发展，AI 已经能够仅凭一段文本和一小段参考音频，合成出自然度颇高的目标说话人语音。然而，在生成质量持续提升的同时，一个更基础的问题仍未被认真回答： …

音频技术
2026年7月2日
技术文章

Arxiv | MagiCodec：高斯噪声注入与多阶段训练实现高保真可建模音频编码

本文提出 MagiCodec，一个单层、流式Transformer音频编解码器，通过多阶段训练 + 高斯噪声注入 + 隐空间正则化，显式提升token的语义表达能力，同时保持高保真重建。

音频技术
2026年6月29日
行业资讯

世界杯的音频挑战：一场比赛，一次混音

在澳大利亚，接线板被称为“tail board”。在英国，负责摄像机音频匹配的工程师通常被称为“racker”，而不是“shader”。在国际足联世界杯上，这些差异会迅速消失。 …

音频技术
2026年6月25日
应用场景

AI 语音技术如何在数字娱乐领域崭露头角

AI 迅速重塑了科技世界，无论是在现代娱乐领域还是在数字文化领域。虽然大多数讨论都集中在 AI 生成的图像和文本工具上，但 AI 语音已成为一项新兴技术，正在改变人们创作、消费乃至…

音频技术
2026年6月24日
行业资讯

Syntiant 确认收购 Orosound 和 AudioSourceRE，以推进边缘智能音频技术发展

2026年6月15日，Syntiant Corp. 确认了两项重要的战略收购。Syntiant 收购了 Orosound 和AudioSourceRE，为其机器学习模型组合增添了先…

音频技术
2026年6月16日
技术文章

语音增强中的自监督学习：从无配对训练到基础模型先验

语音增强中的 SSL 已经不再只是“监督数据不够时的权宜之计”，SE 的研究范式已经发生明显变化。对于 SE 而言，自监督学习真正带来的，不只是更少标签，而是更强先验与更宽系统设计空间。

音频技术
2026年6月3日
技术文章

物理感知 AI 可从视频估算物体质量与速度，让视频音效更真实

在电影《侏罗纪公园》中，当观众看到巨型恐龙朝自己走来时，会自然而然联想到低沉、轰鸣的脚步声，仿佛大地都在震颤。这是因为人类对声音的预判，不仅依据物体外形，还会结合尺寸、质量、运动速…

音频技术
2026年5月29日
技术文章

从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析

本文从技术原理出发，系统梳理音频驱动虚拟人领域的发展脉络，并重点解析三篇近年最具代表性的工作：Hallo2、Let Them Talk 与 OmniHuman-1。

音频技术
2026年5月25日
技术文章

苹果新专利：通过随机化音频反馈，让空间计算交互更自然

苹果公司于2026年5月12日授权公告了一项名为“声音随机化”（Sound randomization，US12625670B2）的技术专利。该专利聚焦XR 头显等空间计算设备的使…

音频技术
2026年5月19日
技术文章

AI 语音克隆：背后的技术、研发者以及发展方向

AI 语音克隆过去需要花费数小时训练语音模型，在录音棚录制极其高质量的音频，并部署一支高水平的研究团队。而现在，即使是一些DIY工具也能在几分钟内，根据一小段录音复制出人声，其效果…

音频技术
2026年5月18日
技术文章

降噪技术的真正含义（以及谁真正从中受益）

耳机、电话设备和协作系统的供应商通常会在产品规格书中重点介绍一系列与降噪相关的功能。你经常会看到“声学屏蔽”、“主动降噪”、“AI降噪”等术语，这些术语都旨在强调设备提供清晰易懂音…

音频技术
2026年4月2日
技术文章

主动降噪：音频系统中的静音工程

在音频世界里，静音往往与声音同样珍贵。无论是机舱内的低沉轰鸣、交通的持续嗡嗡声，还是录音中背景噪声的嘶嘶作响，这些不受欢迎的声音都会损害清晰度和舒适感。主动降噪 (ANC) 提供…

音频技术
2026年3月31日
行业资讯

QuickTime 诞生记：疯狂冲刺，打造多媒体的未来

苹果一个十几人的秘密小组，历经”Road Pizza”编解码器的突破、仓促的公开发布承诺、以及无数个熬到凌晨三点的夜晚，在没有预算、没有正式团队的情况下，于1991年打造出 QuickTime。

音频技术
2026年3月31日
技术文章

ICASSP 2026｜迈向构建低资源语种的多任务语音理解模型

为解决低资源语言 SLLMs 多任务理解的核心难题，本文以泰语为典型研究对象，提出一套集专用语音编码器、高效通用对齐方法、规模化数据生成方案于一体的综合性解决方案。

音频技术
2026年3月19日

点击查看更多