
音频技术认证作者
-
为什么AI 语音技术正在成为媒体平台的核心基础设施
多年来,语音技术一直处于数字产品的边缘,主要局限于屏幕阅读器、交互式语音应答系统或一些新奇的语音助手。但这种现状正在迅速改变。随着媒体平台扩展到各种格式、语言和设备,语音技术正日益…
-
Inworld AI 发布 TTS-1.5,用于实时、生产级语音代理
Inworld AI 推出了 Inworld TTS-1.5,这是其 TTS-1 系列的升级版,专为对延迟、质量和成本有严格要求的实时语音代理而设计。TTS-1.5 在 Artif…
-
Telos Alliance 探讨下一代音频技术如何重塑体育制作格局
2025 年的体育广播格局整合了过去五年的诸多技术实验成果:流媒体版权争夺战愈演愈烈,个性化与多视角功能成为主流,IP/云工作流程从试点项目迈入日常运营。这些转变为以音频为核心、兼…
-
Pipecat和Asterisk集成实现WebSocket传输
2025是AI元年,AI业务风生水起,但是语音人工智能充满了各种挑战,构建响应迅速的语音人工智能应用程序需要在实时环境中协调多个 AI 服务: 如何优雅地将各种平台和AI实现集成,…
-
IEEE TASLP | FPO: 细粒度偏好优化提升零样本TTS鲁棒性
近年来,基于大语言模型(LLM)的零样本文本转语音(Zero-shot TTS)系统发展迅速,已经能够在仅提供几秒参考音频的情况下,合成自然、清晰、且具有说话人风格的语音。然而,即…
-
空间音频如何优化价值链,创造消费者价值
多年来,科技与娱乐产业不断向我们描绘这样一个未来:声音将自然环绕于我们周身——我们不仅在聆听,更将沉浸于声音之中。如今所有主流平台均支持杜比全景声、DTS:X、索尼360 Real…
-
ASA 音频隐写技术:一种不依赖深度学习的音频 – 图像隐写方案
隐写术(Steganography)作为一种将秘密信息隐藏于非机密载体(如图片、音频)的技术,在保密通信、数字水印和版权保护领域具有重要价值。目前“音频隐于图像”这一交叉领域的研究…
-
音频技术的进步:捕捉现场体育赛事的氛围
尽管工作流程仍在完善中,沉浸式音频技术已在顶级和低级别体育赛事中得到广泛应用,而广播公司和体育联合会也日益寻求能够提供更个性化观赛体验的供应商。 森海塞尔专业实验室经理 Renat…
-
EchoFree—超轻量神经声学回声消除模型 | ASRU 2025
声学回声消除(Acoustic Echo Cancellation, AEC) 作为语音通信系统的核心预处理模块,其核心任务是从麦克风采集信号中实时分离近端语音(near-end …
-
MPEG-H 和 Dolby Atmos 技术对比,广播公司更偏爱谁?
下一代音频 (NGA) 是一系列技术,它将音频从固定声道混音扩展到沉浸式、对象驱动和元数据驱动的体验,使其具有个性化、易用性和跨设备可扩展性。NGA 允许单个节目携带离散元素(声道…
-
AI驱动的语音质量评分:衡量的不仅仅是MOS
在语音通信领域,通话质量不仅仅取决于技术规格,它直接反映了团队协作方式、客户服务体验以及企业日常运营。多年来,业界一直依赖平均意见得分 (MOS) 来衡量语音质量。尽管 MOS 确…
-
MPEG-I 沉浸式音频以 6DoF 音效革新 VR 和 AR 体验
在虚拟现实和增强现实快速发展的领域,音频长期以来一直处于视觉效果的次要地位。但随着MPEG-I沉浸式音频标准的出现,一场翻天覆地的变革正在发生。该标准有望彻底改变我们在数字领域体验…
-
SHAC 开源全球首个适用于 Web 和桌面端的交互式空间音频格式
2025年11月14日,SHAC(Spherical Harmonic Audio Codec,球面谐波音频编解码器)开发团队宣布,全球首个交互式空间音频格式正式开源发布。SHAC…
-
关于未来语音技术和应用趋势的10点看法
在这个技术变革的时代,本文分享10点个人对于智能语音技术和应用在未来几年发展的看法。
-
大语言模型能够理解空间音频吗?
清华大学、剑桥大学与字节跳动的研究团队提出了一种让大语言模型(LLM)理解空间音频的新方法。与当前多模态大模型只能解析普通音频不同,这项工作让 LLM 有初步“听懂”三维空间中声音方向与定位的能力。
-
HDR10+ Technologies 推出 Eclipsa 音频认证计划,以推进沉浸式音效发展
HDR10+ Technologies LLC(HDR10+动态元数据视频格式的开发机构)宣布推出全新的 Eclipsa Audio 认证计划,为沉浸式音频提供基于开源标准的解决方…
-
揭秘 MPEG-I:下一代 VR 和 AR 音频
MPEG-I 沉浸式音频标准由 MPEG 音频工作组(ISO/IEC JTC1/SC29/WG6)近期最终确定,是MPEG-I 沉浸式媒体套件的最新成员。该标准可在虚拟现实(VR)…
-
告别 Linux 音频困扰:PipeWire 如何让一切变得简单
Linux 音频系统出了名的混乱,往好了说是令人困惑,往坏了说是彻底崩溃。面对 PulseAudio、ALSA和 JACK 这三种音频框架,用户往往只能通过反复试错和大量调试来获得…
-
实时语音活动检测:兼顾精度与计算量的平衡之道
本文介绍一种实时基于统计模型的VAD算法,与WebRTC VAD流程解析中不同,这里可以复用ANR噪声估计的结果进行判决,在算力受限的端侧设备上是一个不错的选择。
-
苹果新获专利,通过人体工学感知滤波技术提升空间音频
苹果公司已获得一项美国专利,该专利涉及一项创新音频系统,该系统可根据可穿戴音频设备相对于用户身体结构的物理位置,动态地确定并应用音频滤波器。这项改进旨在增强空间音频渲染和麦克风拾音…