
音频技术认证作者
-
Syntiant 确认收购 Orosound 和 AudioSourceRE,以推进边缘智能音频技术发展
2026年6月15日,Syntiant Corp. 确认了两项重要的战略收购。Syntiant 收购了 Orosound 和AudioSourceRE,为其机器学习模型组合增添了先…
-
语音增强中的自监督学习:从无配对训练到基础模型先验
语音增强中的 SSL 已经不再只是“监督数据不够时的权宜之计”,SE 的研究范式已经发生明显变化。对于 SE 而言,自监督学习真正带来的,不只是更少标签,而是更强先验与更宽系统设计空间。
-
物理感知 AI 可从视频估算物体质量与速度,让视频音效更真实
在电影《侏罗纪公园》中,当观众看到巨型恐龙朝自己走来时,会自然而然联想到低沉、轰鸣的脚步声,仿佛大地都在震颤。这是因为人类对声音的预判,不仅依据物体外形,还会结合尺寸、质量、运动速…
-
从”对口型”到”数字人” 音频驱动虚拟人合成技术全景解析
本文从技术原理出发,系统梳理音频驱动虚拟人领域的发展脉络,并重点解析三篇近年最具代表性的工作:Hallo2、Let Them Talk 与 OmniHuman-1。
-
苹果新专利:通过随机化音频反馈,让空间计算交互更自然
苹果公司于2026年5月12日授权公告了一项名为“声音随机化”(Sound randomization,US12625670B2)的技术专利。该专利聚焦XR 头显等空间计算设备的使…
-
AI 语音克隆:背后的技术、研发者以及发展方向
AI 语音克隆过去需要花费数小时训练语音模型,在录音棚录制极其高质量的音频,并部署一支高水平的研究团队。而现在,即使是一些DIY工具也能在几分钟内,根据一小段录音复制出人声,其效果…
-
降噪技术的真正含义(以及谁真正从中受益)
耳机、电话设备和协作系统的供应商通常会在产品规格书中重点介绍一系列与降噪相关的功能。你经常会看到“声学屏蔽”、“主动降噪”、“AI降噪”等术语,这些术语都旨在强调设备提供清晰易懂音…
-
主动降噪:音频系统中的静音工程
在音频世界里,静音往往与声音同样珍贵。无论是机舱内的低沉轰鸣、交通的持续嗡嗡声,还是录音中背景噪声的嘶嘶作响,这些不受欢迎的声音都会损害清晰度和舒适感。 主动降噪 (ANC) 提供…
-
QuickTime 诞生记:疯狂冲刺,打造多媒体的未来
苹果一个十几人的秘密小组,历经”Road Pizza”编解码器的突破、仓促的公开发布承诺、以及无数个熬到凌晨三点的夜晚,在没有预算、没有正式团队的情况下,于1991年打造出 QuickTime。
-
ICASSP 2026|迈向构建低资源语种的多任务语音理解模型
为解决低资源语言 SLLMs 多任务理解的核心难题,本文以泰语为典型研究对象,提出一套集专用语音编码器、高效通用对齐方法、规模化数据生成方案于一体的综合性解决方案。
-
如何为高密度语音场景设计Wi-Fi 6与Wi-Fi 7
当几十甚至几百个用户共享同一个无线网络时,语音通话往往首当其冲受到影响。通话会中断,音频会断断续续。用户通常会责怪电话系统,但实际上,问题往往出在 Wi-Fi 设计上。 如果您计划…
-
研究:智能手机引领车载音频的未来
车载音频正经历快速变革。数十年来,收音机和CD播放器一直主导着车内听觉体验。而如今,据Futuresource报道,智能手机已占据主导地位。 该公司的《汽车展望》报告显示,在主要市…
-
LLM-ForcedAligner:多语种长语音非自回归强制对齐器
LLM-ForcedAligner 具备平均时间偏移低、多语言和跨语言处理能力强、最长支持5分钟语音输入和灵活定义时间戳预测位置的特点,并且其非自回归推理方式可消除大语言模型next-token prediction范式中存在的幻觉和计算缓慢问题。
-
为什么AI 语音技术正在成为媒体平台的核心基础设施
多年来,语音技术一直处于数字产品的边缘,主要局限于屏幕阅读器、交互式语音应答系统或一些新奇的语音助手。但这种现状正在迅速改变。随着媒体平台扩展到各种格式、语言和设备,语音技术正日益…
-
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理
Inworld AI 推出了 Inworld TTS-1.5,这是其 TTS-1 系列的升级版,专为对延迟、质量和成本有严格要求的实时语音代理而设计。TTS-1.5 在 Artif…
-
Telos Alliance 探讨下一代音频技术如何重塑体育制作格局
2025 年的体育广播格局整合了过去五年的诸多技术实验成果:流媒体版权争夺战愈演愈烈,个性化与多视角功能成为主流,IP/云工作流程从试点项目迈入日常运营。这些转变为以音频为核心、兼…
-
Pipecat和Asterisk集成实现WebSocket传输
2025是AI元年,AI业务风生水起,但是语音人工智能充满了各种挑战,构建响应迅速的语音人工智能应用程序需要在实时环境中协调多个 AI 服务: 如何优雅地将各种平台和AI实现集成,…
-
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性
近年来,基于大语言模型(LLM)的零样本文本转语音(Zero-shot TTS)系统发展迅速,已经能够在仅提供几秒参考音频的情况下,合成自然、清晰、且具有说话人风格的语音。然而,即…
-
空间音频如何优化价值链,创造消费者价值
多年来,科技与娱乐产业不断向我们描绘这样一个未来:声音将自然环绕于我们周身——我们不仅在聆听,更将沉浸于声音之中。如今所有主流平台均支持杜比全景声、DTS:X、索尼360 Real…
-
ASA 音频隐写技术:一种不依赖深度学习的音频 – 图像隐写方案
隐写术(Steganography)作为一种将秘密信息隐藏于非机密载体(如图片、音频)的技术,在保密通信、数字水印和版权保护领域具有重要价值。目前“音频隐于图像”这一交叉领域的研究…