音频技术
-
苹果专利 | 双耳机扬声器系统,通过额外排气孔提供隐私-公开双模式
近日,欧洲专利局公布了苹果公司的一项专利申请,涉及一种为用户提供双扬声器系统的新型耳机。更具体地说,耳机为用户提供了在私人或公共模式下听音乐的选择。例如,通过机器学习,耳机将能够确…
-
语音增强之Deep Xi算法实践
语音增强算法旨在提高带噪语音的感知质量和可理解性,它需要在不扭曲语音的情况下抑制背景噪声。 目前,深度学习方法在语音增强领域处于前沿。深度神经网络(DNNs)被用来将有噪声的语音幅…
-
Apple Vision Pro如何做到“声”临其境?
2023年6月6日的WWDC23大会,苹果官方推出了多年筹划的MR产品:Apple Vision Pro,并将于2024上半年在美国上市,随后扩展到更多市场。首先介绍三个类似但截然…
-
MetaAI开源AudioCraft:一个支持AudioGen、MusicGen等模型的音频生成开发框架
在过去的几年里,我们看到了AI在图像、视频和文本生成方面的巨大进步。然而,音频生成领域的进展却相对滞后。MetaAI这次再为开源贡献重磅产品:AudioCraft,一个支持多个音频…
-
深度学习语音分离算法
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。 它的主要目标是从带噪语音中提取尽可能纯净的原始语音,提高语音质量…
-
CN-Celeb-AV: 多场景视听多模态数据集发布
近日,清华大学语音和语言技术团队联合北京邮电大学发布了中国明星多场景音视频多模态数据集 (CN-Celeb-AV),供音视频多模态身份识别 (AVPR) 等领域的研究者使…
-
心理声学声掩蔽效应及应用
一、声掩蔽效应的定义 由于某个声音的存在而使人耳对别的声音听觉灵敏度降低的现象,称为“声掩蔽效应”。当人耳在倾听一个声音的同时,如果存在另一个声音,就会影…
-
什么是音频中的动态余量?(录音、混音和母带制作)
动态余量是音频技术中的一个基本概念,在数字录音时代经常被忽视,尤其是对于初学者来说。了解音频的基础知识,包括动态余量的定义,将增强您的知识,并最终增强您处理音频时的技能。 什么是音…
-
为可穿戴设备用户提供空间音频导航系统 | 苹果空间音频新专利
近日,美国专利商标局正式授予苹果一项与空间音频导航相关的专利,该专利将在未来的AirPods、智能眼镜和更轻量级的Vision Pro上使用。该系统通过双耳音频设备播放指向性音频,…
-
苹果专利分享针对AR/VR头显体验的空间音频渲染
对于沉浸式体验,生成多通道扬声器驱动信号的空间音频渲染对于提升真实感而言非常重要。例如,一个声音信号可以通过电子处理来产生一个虚拟的点源,并呈现为从听者的右边或左边的给定位置发出,…
-
沉浸式音频插件VIRTUOSO,通过双耳技术提供沉浸式体验
经过五年多的前沿研究项目,音响工程师现在可以通过耳机体验真正身临其境的3D音频,而无需使用扬声器。 由哈德斯菲尔德大学(University of Huddersfield)的Hy…
-
研究人员将声音精确分解为三个基本组成部分
多年来,研究人员一直在寻找将声音分解成基本成分的方法。19世纪20年代,法国科学家约瑟夫·傅立叶(Joseph Fourier)提出,任何信号,包括声音,都可以用足够数量的正弦波来…
-
具有非协同步长的噪声鲁棒分布式资源分配算法 | 吴温文,朱善迎,刘帅,关新平
研究意义 资源分配问题在智能电网的经济调度、移动边缘计算任务卸载和资源分配、机器人集群任务分配等场景中广泛应用。该问题通过对网络中有限资源的优化配置,在满足网络整体供需平衡需求、各…
-
基于Speech框架实现APP智能语音交互的解决方案
使用手机的语音框架可以识别录制或现场音频中的口语单词,系统的键盘的听写也支持使用语音识别将音频内容翻译成文本。本文透过和家亲上的实践应用案例,介绍基于Speech框架实现APP智能…
-
混响的基础知识
混响可以说是现代录音中最常用的效果之一,也可能是最容易被误解的效果之一。考虑到这样一个事实是很有趣的:就像许多事情一样,他们花了几十年的时间完善不同的方法来模仿自然界中自然发生的事…
-
基于交互式注意力的语音情感识别联合网络 | IEEE ICME 2023论文
研究背景:语音情感识别(Speech Emotion Recognition,SER)指通过让机器检测和识别人类语音信号中如喜悦、愤怒、悲伤、惊讶、恐惧等多种情感类别。为了适用于如…
-
用户跟踪及人车互联功能加入车载音频系统 | 苹果专利
近日,美国专利商标局公布了苹果公司与Project Titan相关的专利申请,该申请专注于将用户跟踪头枕音频控件和扬声器集成到未来的汽车座椅中。 苹果在其专利背景中指出,声学设备(…
-
基于等离子体的降噪系统
EPFL(École Polytechnique Fédérale de Lausanne)的研究人员开发了一种有效的超薄有源降噪系统,该系统使用电离空气等离子体推进系统代替传统扬…
-
深度学习在语音增强中的应用
随着科学技术的发展,语音作为新一代人机交互方式,成为人和智能设备、语音助手交流的重要接口,然而在真实环境中,语音信号不可避免的被各种噪声所干扰,除了各种环境噪声,声波在封闭空间中的…
-
基于有意义学习的零样本语义分割方法 | 北航刘祥龙团队
研究意义 图像语义分割是计算机视觉中最重要的分支之一,被广泛应用于许多现实世界的场景中,如地理信息系统、自动驾驶、医学图像分析等。然而,传统的语义分割方法极大地依赖于像素级标注信息…