音频技术
-
通过预训练的生成音频编码器和声码器实现高效且适应性强的语音增强
语音增强 (SE) 领域的最新进展已经超越了传统的掩码或信号预测方法,转而采用预训练音频模型来获取更丰富、更可迁移的特征。这些模型(例如 WavLM)可以提取有意义的音频嵌入,从而…
-
Flutter 音频驱动应用:实时声音可视化、音频处理和语音交互
在语音助手、播客和实时通信占主导地位的时代,音频驱动的应用程序覆盖各行各业,从健身和冥想到教育和娱乐等行业。Flutter 以其极富表现力的 UI 和跨平台功能而著称,如今它已强大…
-
从声音到句子:探究现代语音模型的工作原理
有没有想过你最喜欢的 AI 助手是如何理解和回应你的语音的?在幕后,大量的数学和深度学习技术将你的声音转化为文本,并对其进行解读,甚至可能用另一种声音或语言生成逼真的响应。本文将逐…
-
低复杂度降噪技术:助力扫地机器人实现高效实时语音处理
在智能家居设备中,扫地机器人的语音交互功能常受限于其自身运行时产生的高强度噪声,尤其是在信噪比(SNR)低至 – 10 dB 甚至更低的环境下,提取有效语音指令变得极具…
-
体育音频的未来:更具沉浸感、更具包容性、更具创新性
体育广播正在经历一场深刻的变革。不断变化的观众期望和技术进步,使得沉浸式、便捷且个性化的音频成为球迷体验的新标杆。与早期广播创新的几次迭代(例如高清、4K 和 HDR 的出现)不同…
-
多声源定位新方法:结合α稳定模型与神经网络的SHAMaNS
声源定位(Sound Source Localization, SSL)作为机器听觉领域的基础任务,在增强听觉、机器人技术、自动驾驶等场景中应用广泛。现有 SSL 技术主要分为声学…
-
苹果推出新空间音频格式 ASAF,将空间音频提升到一个新的水平
苹果在开发者会议上推出新空间音频格式 Apple Spatial Audio Format (ASAF) 。ASAF 可在大多数 Apple 平台上播放,但在 visionOS 上…
-
MIT 新 AI 模型实现音画同步学习:无需标注即可准确对齐视频与音频
人类天生通过视觉与听觉的关联来学习。例如,我们看到有人拉小提琴时,能意识到演奏者的动作正在产生我们听到的音乐。 麻省理工学院(MIT)等机构的研究人员开发了一种新方法,可提升人工智…
-
浏览器如何处理音频流:MediaRecorder 与 Web Audio API
有没有想过,网站是如何让您录制语音笔记、玩带有动态音效的互动游戏,甚至将音乐可视化的?这些神奇的事情就发生在浏览器中,由专门用于处理音频流的复杂 JavaScript API 驱动…
-
人工智能如何改变配音、翻译和本地化的游戏规则
人工智能配音是 NAB 2025 展会上最具活力的创新领域之一,但人工智能也在开辟令人兴奋的新领域,尤其是在音频翻译领域。为了找到人工智能能带来真正投资回报的具体应用案例,SVG …
-
NAB 2025 回顾:人工智能与音频的结合成为可能
在 NAB 2025 上, 人工智能(AI)作为一种概念和现实是一个重要的话题。 Telos Alliance 在展会上首次展示了其 Minnetonka Audio AudioT…
-
开源PJSIP环境下回声抑制处理机制和优化讨论
回声消除或者回声抑制是语音呼叫中经常遇到的问题。这种问题取决于SIP终端的回声处理能力。很多SIP终端使用硬件处理,一些软电话只能使用软件算法来处理。处理的结果也有很大差别。本文章…
-
OGG 与 MP3 有什么区别?哪种音频格式更好
本文将探讨数字音频格式的世界,比较 OGG 和 MP3。我们将讨论 OGG 和 MP3 的主要区别,包括音质、文件大小和兼容性等。 什么是 OGG? OGG 是一种免费的开源比特流…
-
增值:音频在流媒体变革中的作用
2024 年夏季奥运会在直播方面创造了历史。根据媒体研究专家 Nielsen 的数据,美国全国广播公司(NBC)的 Peacock 流媒体服务对夏季奥运会的报道使收视率比 7 月份…
-
从8kHz到48kHz:音频带宽扩展算法的演进
本文介绍使用音频带宽扩展(Audio Bandwidth Extension, ABE)来改善语音质量。带宽扩展旨在估计缺失的高频内容,换句话说,即提高语音信号的分辨率,从 4-8kHz 扩展到 16kHz。
-
解决视频通话无声问题:如何检测基于浏览器的应用程序中的音频路由问题
有没有过这样的经历:在视频通话中,尽管音频效果很好,但对方却听不到你的声音?我在构建基于浏览器的视频 KYC(Know Your Customer)解决方案时就遇到过这样的难题,正…
-
空间音频技术:理想与现实的博弈
在2025年的今天,”空间音频”(Spatial Audio)、”杜比全景声”(Dolby Atmos)等术语已经成为消费电子展会的…
-
常见的 VoIP 音频质量问题及其解决方法
通话故障、延迟和音频失真不仅令人讨厌,还会破坏商务沟通。本文将列举一些常见的 VoIP 音频质量问题,如丢包、延迟和回音,以及消除这些问题的专业解决方案。
-
人工智能正在快速实现音频内容的自动化生成
人工智能正在进一步涉足音频内容生成领域,并极大地改变了其发展。谷歌、Meta 和微软等知名供应商以及 Revoicer 和 WellSaid 等初创公司正在利用生成式人工智能,提供…
-
音频流服务的系统设计
音频流应用程序的系统设计在如何处理特殊业务需求方面具有独特性。通常,音频流需要在有限的网络通信通道带宽内传输大量数据。 一个成功的音频流媒体服务必须能够处理来自不同地理位置的数百万…