音频技术
-
语音识别资料汇总:常见库和特征对比
语音识别基础 语音数据是一种时间序列数据,它记录了声音在时间轴上的变化。 通常通过麦克风收集,每个时刻的声音信号被采样成数字形式,形成一个时间序列。 语音数据通常需要进行…
-
基于HRTF的声源方向性研究
1、引言 现实生活中对于声源方向性的应用,主要有:吃鸡游戏、公路骑行、找手机,确定谁在讲话等。声源方向性研究是确定一个声音在空间来源位置的技术。 为什么人耳会在现实中听出声音的方向…
-
为什么蓝牙音频质量在视频通话中受到影响
有没有想过为什么你的蓝牙耳机在进入视频通话时从非常高质量的音频体验切换到一个微小的单声道体验?在这篇文章中,我们将解释这种情况发生的确切原因,以及在蓝牙方面正在做的工作,以改善我们…
-
基于残差UNet架构的音轨分离技术探析
1、引言 对于一些需要音频分离的场景,比如基于声音对象提取的虚拟全景声研究、K歌伴奏的提取等,一直是较难实现的行业痛点。 音轨分离,即音乐源分离 (MSS) ,是将混合音频分离成若…
-
基于神经网络的空间音频渲染技术探析
1 前言 如何给用户带来更加真实的沉浸体验,是元宇宙音频技术研究的核心使命。空间音频(Spatial Audio)也称三维声,正是肩负着这样的使命应运而生,空间音频不仅能实现三维的…
-
ARC 和 eARC 能做什么?HDMI 音频功能指南
本文解释什么是 eARC(增强型音频回传通道)和 ARC(音频回传通道),它们有什么区别,以及 HDMI 功能适用于什么。 在家庭或客厅影院中,大多数情况下,HDMI 电缆用于将两…
-
从阵元域到模态域的三维音频技术
随着视频空间化的进程,人们对音频空间化也越来越感兴趣。空间音频也称三维音频,是一项可以在扬声器阵列或者耳机上产生三维方位感的音频技术,其目的是营造一种身临其境的体验,在这种体验中,…
-
ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型
本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Reco…
-
android 音频采集的三种方式
android平台上的音频采集一般有三种:1.利用android内置的应用程序 2.使用MediaRecorder进行音频捕获 3.使用AudioRecord进行音频捕获。…
-
声学诊断技术现状浅析
声音作为人们最熟悉的信息之一,具有采集容易,信息含量丰富,检测范围广等特点,因此声音在信息处理领域得到了很多的关注和研究。声学诊断技术就是其中一项重要内容,例如在各种大型机器工厂中…
-
杜比全景声 (DOLBY ATMOS):使用基于对象的音频进行制作
在上一篇文章中,我们探讨了使用基于对象的音频在沉浸式体验和个性化领域提供的可能性。 在这些美妙的体验能够到达观众之前,它们必须被创造出来。为此,创作者需要方法、工作流、工具和容器。…
-
基于对象的音频在沉浸式体验和个性化领域提供的可能性
基于对象的音频制作在过去一年中开始受到消费者的关注,杜比全景声 (Dolby Atmos) 技术被整合到来自各种供应商的耳机、扬声器和条形音箱中。Apple、Amazon 和 Ti…
-
AI降噪的N种数据扩增方法
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 基于统计信号处理的传统噪声抑制方法是通过检测持续的背景声,来估计背景噪声,然后通过估计到的背景噪声计算增益因子对…
-
基于深度噪声抑制模型的智能音频降噪技术
1、引言 通常情况下,一段夹杂噪声的语音,会严重影响语音质量,给听者带来不适,不利于语音信息有效可靠的传达。 语音降噪,属于对音频数据的一项语音增强技术。语音增强是指当语音信号被各…
-
IEEE SLT 2022论文丨如何利用x-vectors提升语音鉴伪系统性能?
分享一篇IEEE SLT 2022收录的声纹识别方向的论文,《HOW TO BOOST ANTI-SPOOFING WITH X-VECTORS》由AuroraLab(极光实验室)…
-
用于空间音频的虚拟听觉空间 | 苹果专利
近日,美国专利商标局正式公布了苹果公司新授予的55项专利,涵盖AirPods(第三代)的设计和实用专利,以及两项空间音频专利。 其中,根据Apple的说法,空间音频创建了一个3D虚…
-
收声设备简介
本文分享来自“抖音多媒体评测实验室” 撰写的收声设备介绍。将从麦克风、话筒等方面为大家带来一些关于发声设备的知识,欢迎关注了解。 1 麦克风单体及选型 1.1 麦克风单体 MIC:…
-
发声设备简介
本期将从以下几个方面为大家带来一些关于发声设备的介绍,下一期还有收声设备相关介绍,欢迎关注了解。 SPK单体及选型 1、SPK单体 SPK:Speaker、扬声器或喇叭 动圈式扬声…
-
三维声渲染技术综述
一、三维声一场声音的革命 众所周知,电影诞生于18世纪90年代,但不同于今天的电影,电影刚诞生时是没有声音的,在很长一段时间,人们习惯于在寂静中欣赏电影里的画面。不过谁都知道,电影…
-
音频指纹是什么?音频指纹技术概述
音频指纹是基于内容的压缩签名,它总结了音频记录。它们允许独立于音频的格式而识别音频,而不需要元数据或水印嵌入。指纹识别的其他用途包括:完整性验证、水印支持和基于内容的音频检索。使用…