音频技术
-
AOMedia发布免版税沉浸音频规范IAMF
11月10日,开放媒体联盟(AOMedia)发布了旗下首个沉浸式音频规范IAMF(https://aomediacodec.github.io/iamf/),IAMF是一种编解码器…
-
EMSAssist:一款面向紧急医疗服务边缘计算的端到端移动语音助手
在紧急事件(如人为或自然灾害地区)中,准确、迅速地提供紧急医疗服务(EMS)至关重要。然而,在复杂的医疗场景中快速选择正确的 EMS 协议(规定对患者实施的医疗程序),仍然是紧急医…
-
一种基于深度学习的啸叫抑制算法
扩声系统用于放大声音,其典型应用包括:多媒体电教室、本地会议系统、助听器和人工耳蜗等,该电声系统至少包括一个传声器、一个放大器以及声重放单元扬声器。当传声器与扬声器处于同一个声学环…
-
VoIP和多人在线游戏的演变
深入了解在线多人游戏世界,您会发现它经历了一段相当长的旅程。在高分辨率图形和复杂的游戏机制中,有一位沉默的英雄重塑了游戏体验:VoIP(基于IP的语音传输的一种语音通话技术)或叫网…
-
端到端语音识别中的建模单元
端到端语音识别中不同的建模单元有着不同的应用场景,本文对中英文常用的一些建模方式以及如何生成对应的标签进行总结,希望对大家有所帮助。 I. 中文建模单元 音素(phoneme) 音…
-
哈斯效应是什么意思?哈斯效应的原理和应用
哈斯效应的定义及原理 当声场中存在两个响度相同的声源发出相同的音频信号时,首先到达人耳的声源被感知为声音的唯一来源,而迟到的声音似乎被忽略掉。这一现象被称为“哈斯效应”或“优先效应…
-
DiffPoseTalk:利用扩散模型进行语音驱动的风格化 3D 面部动画和头部姿势生成
通过语音驱动的风格化3D面部动画生成需要学习语音、风格和相应的面部运动之间的多对多映射关系。然而,现有方法要么使用确定性模型进行从语音到运动的映射,要么使用一种独热编码方案来编码风…
-
单通道语音唤醒与语音增强结合时的性能变化
单通道语音唤醒常应用于TWS耳机、智能手表等边缘设备上,作为语音助手的“守门员”。各信噪比下的唤醒率、每日误唤醒、唤醒延迟、模型参/算量是衡量语音唤醒算法性能的若干关键指标。低信噪…
-
Alpine Linux 容器中的 Sipexer
Sipexer 是一款非常不错的命令行 SIP 客户端,由 Kamailio 的主要作者和维护者 Daniel-Constantin Mierla 编写。虽然我不知道用它连接语音信…
-
关于呼叫时长和语音质量的三个主要相关性分析分享
语音呼叫质量在整个IP语音环境中是一个非常重要的指标,从运营商端,到企业终端用户对语音质量是比较敏感的。语音呼叫的质量和很多因素相关,同时在关于语音质量方面的评价方式也有所不同。电…
-
Siamese SIREN:隐式神经表征的音频压缩 | ICML 2023 Workshop
隐式神经表征 (INRs) 已经成为一种很有前景的表示各种数据模式的方法,包括3D形状、图像和音频。虽然最近的研究已经证明了 INRs 在图像和 3D 形状压缩方面的成功应用,但它…
-
可控情感的表现力语音驱动面部动画合成
高度逼真的面部动画生成需求量很大,但目前仍然是一项具有挑战性的任务。现有的语音驱动面部动画方法可以产生令人满意的口部运动和嘴唇同步,但在表现力情感表达和情感控制的灵活性方面仍存在不…
-
什么是人工智能语音发生器?人工智能语音发生器的工作原理和优势
随着越来越多的公司利用语音技术创造高效的客户服务体验和令人难忘的互动,语音技术也变得越来越流行。在当今的数字环境中,人工智能通常为语音技术提供动力,使计算机能够理解有声语言并作出反…
-
西工大 ASLP 实验室在 WeNet 中开源基于 CPPN 的神经网络热词增强语音识别方案
语境偏置(Contextual biasing)旨在将语境知识集成到语音识别(ASR)系统中,以提高在相关领域词汇(俗称“热词”)上的识别准确率。在许多ASR场景中,待识别语音中可…
-
Audition RMS计算原理解析
分贝(deci-Bel, dB)是语音中一个比较常见的概念,经常听别人说声音多少dB,但是有时候会发现,dB一会儿是正的一会儿是负的,让人一头雾水,摸不着头脑,我们在震惊!这个声音…
-
人工智能的进步,提升了芯片语音识别能力
21dB声学人据悉,IBM和加州大学(California universities)旧金山和伯克利分校在语音识别技术方面的独立研究,为患有声带麻痹和失语症的患者带来了好消息。 I…
-
语音深度伪造技术
深度伪造(Deepfake)是深度学习(deep learning)与伪造(fake)二者的组合词,可实现图像、音频、视频的伪造生成。近年来人工智能技术发展迅速,语音深度伪造技术也…
-
浅谈混响及一些去混响方法
混响问题描述 在封闭的空间中,当声源产生的声音经过反射物(墙壁、地面和室内装饰物等)多次反射叠加后会形成混响,如图1所示。在均匀介质声场中,声源到传声器的直达声传播时间最短,人们将…
-
一个简单的说话人日志系统
最近一段时间做了点和说话人日志(speaker diarization)相关的工作,所以在这里对说话人日志做一个简单的整理。说话人日志也叫说话人分离,是从一个连续的多人说话的语音中…
-
Meta专利AR/VR音频内放、外放播放生成空间音频和消除串扰的方法
对于XR,音频是关于沉浸感的一个关键因素。所以,厂商都在积极探索提供最佳的空间音频效果。在名为“Generating spatial audio and cross-talk ca…