音频技术
-
SIP 中继语音带宽?
SIP 中继的普及使这些 SIP 中继的语音带宽计算成为 IT 组织必须解决的问题。带宽过大,就无法实现投资回报率,总体拥有成本也会高于必要水平。带宽太小会导致呼叫阻塞,呼叫者放弃…
-
突破音频质量障碍:引入 PeriodWave-Turbo 实现高效波形合成
在音频合成中实现高保真波形生成是一项重大挑战,特别是由于传统模型(如条件流匹配 (CFM))的推理时间较长,需要大量的常微分方程 (ODE) 步骤。虽然这些模型质量很好,但它们通常…
-
Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换 | INTERSPEECH2024
零样本语音转换 (zero-shot voice conversion) 旨在保留语言内容的同时,将源说话人语音转换成任意目标说话人的语音。随着深度学习技术的引入,零样本语音转换技…
-
音频技术在虚拟现实及增强现实中的应用
在当今数字化时代,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality, AR)技术正迅速成为创新交互体验的前沿。这些技术通过模拟或增强用…
-
使用 RecordRTC.js 库流式传输音频
RecordRTC.js 是一个方便的 JavaScript 库,可让您直接从浏览器录制音频和视频。通过使用 WebRTC 技术,它能让捕捉音频、视频甚至屏幕录制等媒体流变得超级简…
-
紧凑但强大:Intel N-DNS Challenge 冠军方案解析
微软举办的DNS Challenge比赛做语音的朋友们或多或少有所了解,但是这个比赛更多的注重语音增强的效果。然而在实际场景下,很多语音增强的算法要放在低算力的端侧运行,这就对模型…
-
MPEG-H 与广播音频的发展
MainConcept 战略与业务发展副总裁 Thomas Kramer 和 Fraunhofer IIS 媒体技术高级工程师 Yannik Grewe 详细介绍了 MPEG-H …
-
低噪音创新:声音如何促进电信业的未来
声波有多种应用,但并不总是广为人知:它们不仅用于通信,还可用于冷却或加热建筑物、监测鸟类迁徙或控制电视。随着社会的变化,声学领域涉及许多创新,为日常挑战提供解决方案。 电信世界也不…
-
风噪抑制方案解析
风噪,专业名称为空气动力噪声,是由流场中运动的物体与物体之间的作用产生,或者是由流体自身的湍流运动导致的流体之间的相互作用产生。在多种实际应用场景中都可能遇到风噪的问题,常见的比如…
-
2024 年 MLB 全明星赛现场直播:新技术让音频制作变得复杂
FOX Sports 为 MLB 全明星赛制作音频的过程对观众来说可能冗长而不透明,但这对他们充分欣赏比赛绝对至关重要。由于新技术和多样化技术的应用,视频变得越来越复杂,而同步那些…
-
Interspeech2024|基于离散语音单元的流式解码器语音识别
在当今数字化时代,大模型以其强大的数据处理和复杂问题解析能力,正深刻改变着我们的现实生活。以GPT4o等为例,大模型已经具备了令人惊叹的全双工语音交互能力,其中实时交互是语音对话的…
-
牛了!无需 Wi-Fi/手机信号,通过 iPhone 和 AirPods 等设备即可一起语音聊天
苹果公司正在开发一种技术,只需使用 iPhone 和 AirPods 等耳机,无需 WiFi 或手机信号,就能让附件使用相同设备的人开始语音聊天。 这个技术就像 Apple Wat…
-
Cocos Creator 3.x 3D 空间音频解决方案!
最近在用 Cocos Creator 3.8 制作一个 3D 联机坦克大战游戏。因为项目需要,在 Cocos Creator 中实现了 3D 空间音效的方案,在此分享给大家,希望能…
-
语音生成模型整理以及LauraGPT介绍
因为最近做了一段时间的语音生成方向,期间也整理了一些开源项目和相关论文,每个或多或少都有可借鉴的地方,对于了解现阶段语音生成的相关技术还是比较有帮助的,后续也会根据自己的节奏来分享…
-
React.js 中的实时音频流:处理和播放实时音频缓冲区
本文分享在项目中如何使用 React.js 实现实时音频流功能,核心是处理通过 WebSocket 接收到的音频 Blob,将其存储在队列中,并无缝播放。 关键组件 WebSock…
-
实时音频同步(第 2 部分)
多设备音频实时同步是一项引人入胜的挑战,它涉及解决延迟问题和确保播放事件的精确定时。在本系列中,我们将深入探讨此类系统的复杂技术。在第 1 部分中,我们讨论了实现精确定时以确保无缝…
-
论文分享 | 整合音频和视觉特征进行多模态Deepfake检测
本次分享由库比蒂诺高中和纽约州立大学布法罗分校联合投稿在CVPR 2023的一篇论文:《Integrating Audio-Visual Features for Multimod…
-
ActiveRIR:一种有效评估和建模环境声学的新方法
增强现实 (AR) 和虚拟现实 (VR) 旨在人工重现导航特定环境的体验。近年来,视频游戏和娱乐公司一直在可以通过这些技术,制作与访问这些越来越身临其境的内容。 一些计算工具可以帮…
-
实时音频同步(第 1 部分)
实时同步技术错综复杂,它一直是一个令我着迷的课题。今天,我想与大家分享我构建一个系统的方法,这个系统可以在位于不同物理区域的设备之间实时同步音频。 试想一下,我们在一个家庭的多个房…
-
探索单通道语音实时去混响算法
去混响(Dereverberation)是语音会议中常用的算法之一,现在会议室大都采用玻璃幕墙导致会议室混响严重,在距离较远时语音会变得模糊不清,而去混响算法可以减少晚期混响以提升…