
音频技术认证作者
-
MPEG-H 和 Dolby Atmos 技术对比,广播公司更偏爱谁?
下一代音频 (NGA) 是一系列技术,它将音频从固定声道混音扩展到沉浸式、对象驱动和元数据驱动的体验,使其具有个性化、易用性和跨设备可扩展性。NGA 允许单个节目携带离散元素(声道…
-
AI驱动的语音质量评分:衡量的不仅仅是MOS
在语音通信领域,通话质量不仅仅取决于技术规格,它直接反映了团队协作方式、客户服务体验以及企业日常运营。多年来,业界一直依赖平均意见得分 (MOS) 来衡量语音质量。尽管 MOS 确…
-
MPEG-I 沉浸式音频以 6DoF 音效革新 VR 和 AR 体验
在虚拟现实和增强现实快速发展的领域,音频长期以来一直处于视觉效果的次要地位。但随着MPEG-I沉浸式音频标准的出现,一场翻天覆地的变革正在发生。该标准有望彻底改变我们在数字领域体验…
-
SHAC 开源全球首个适用于 Web 和桌面端的交互式空间音频格式
2025年11月14日,SHAC(Spherical Harmonic Audio Codec,球面谐波音频编解码器)开发团队宣布,全球首个交互式空间音频格式正式开源发布。SHAC…
-
关于未来语音技术和应用趋势的10点看法
在这个技术变革的时代,本文分享10点个人对于智能语音技术和应用在未来几年发展的看法。
-
大语言模型能够理解空间音频吗?
清华大学、剑桥大学与字节跳动的研究团队提出了一种让大语言模型(LLM)理解空间音频的新方法。与当前多模态大模型只能解析普通音频不同,这项工作让 LLM 有初步“听懂”三维空间中声音方向与定位的能力。
-
HDR10+ Technologies 推出 Eclipsa 音频认证计划,以推进沉浸式音效发展
HDR10+ Technologies LLC(HDR10+动态元数据视频格式的开发机构)宣布推出全新的 Eclipsa Audio 认证计划,为沉浸式音频提供基于开源标准的解决方…
-
揭秘 MPEG-I:下一代 VR 和 AR 音频
MPEG-I 沉浸式音频标准由 MPEG 音频工作组(ISO/IEC JTC1/SC29/WG6)近期最终确定,是MPEG-I 沉浸式媒体套件的最新成员。该标准可在虚拟现实(VR)…
-
告别 Linux 音频困扰:PipeWire 如何让一切变得简单
Linux 音频系统出了名的混乱,往好了说是令人困惑,往坏了说是彻底崩溃。面对 PulseAudio、ALSA和 JACK 这三种音频框架,用户往往只能通过反复试错和大量调试来获得…
-
实时语音活动检测:兼顾精度与计算量的平衡之道
本文介绍一种实时基于统计模型的VAD算法,与WebRTC VAD流程解析中不同,这里可以复用ANR噪声估计的结果进行判决,在算力受限的端侧设备上是一个不错的选择。
-
苹果新获专利,通过人体工学感知滤波技术提升空间音频
苹果公司已获得一项美国专利,该专利涉及一项创新音频系统,该系统可根据可穿戴音频设备相对于用户身体结构的物理位置,动态地确定并应用音频滤波器。这项改进旨在增强空间音频渲染和麦克风拾音…
-
利用 ARM NEON 指令集加速:端侧 FFT 的高效实现
本文介绍下工程方法的内容,在移动设备和嵌入式系统中,高效的数字信号处理(DSP)算法至关重要。快速傅里叶变换(FFT)作为核心算法之一,其性能直接影响到音频处理、图像分析、通信等多…
-
听见空间:ASAudio 空间音频表示、理解与生成的全景综述
近几年,空间音频从“更高质量到音频”走向“可被理解与生成的三维声场”。它不只是把声音变“立体”,而是让系统理解声源的方位、距离、运动,并能按需生成。在 AR/VR、影视、…
-
解锁通信:可编程语音 API 综合指南
可编程语音 API 正在改变企业与客户互动的方式,这些先进的工具提供了前所未有的语音通信控制和定制能力,使企业能够打造独特的客户体验并简化运营。随着各行各业持续拥抱数字化转型,整合…
-
Dante 如何将 NBC 体育的音频和通讯愿景变成现实
体育广播需要精准、可靠和创新,很少有机构能比 NBC 体育更好地体现这一点。多年来,该网络始终采用尖端技术来提升其制作水平,为数百万观众提供无缝衔接的转播。其工作流程中最具变革性的…
-
突破噪音:新一代 AI 如何改变语音分离技术
你是否曾在虚拟会议中遇到多人同时发言,几乎无法跟上对话内容的情况?又或者,你是否曾体验过与智能音箱对话时,背景噪音盖过指令,令人沮丧?基于 AI 的语音分离技术的最新进展有望改变这…
-
DualDub:同时生成和谐的语音与背景音频,构建完整的视频音轨 | ACM MM 2025
当前视频到音频(Video-to-Audio, V2A)模型可以从视觉输入中生成逼真的背景音频,但它们大多忽略了语音在视频音轨中的关键组成部分。近期,西工大音频语音与语言处理研究组…
-
通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强
语音增强 (SE) 领域的最新进展已经超越了传统的掩码或信号预测方法,转而采用预训练音频模型来获取更丰富、更可迁移的特征。这些模型(例如 WavLM)可以提取有意义的音频嵌入,从而…
-
Flutter 音频驱动应用:实时声音可视化、音频处理和语音交互
在语音助手、播客和实时通信占主导地位的时代,音频驱动的应用程序覆盖各行各业,从健身和冥想到教育和娱乐等行业。Flutter 以其极富表现力的 UI 和跨平台功能而著称,如今它已强大…
-
从声音到句子:探究现代语音模型的工作原理
有没有想过你最喜欢的 AI 助手是如何理解和回应你的语音的?在幕后,大量的数学和深度学习技术将你的声音转化为文本,并对其进行解读,甚至可能用另一种声音或语言生成逼真的响应。本文将逐…