音频技术认证作者
-
混音:打破电子竞技音频的复杂性
电子竞技制作与现场体育有许多共同之处,但音响工程却是一个全新的游戏。IBC365 探索了在噪音的严酷环境中控制谁听到什么的复杂性。 声音在游戏体验中一直扮演着重要角色。枪声、发动机…
-
浅谈音频鉴黄技术
随着互联网的迅猛发展和网络智能化的普及,音视频内容已成为互联网传播的主流形式,各大视频网站、直播平台及短视频应用不断涌现,为亿万用户提供了丰富多样的娱乐和资讯内容。然而,这种繁荣背…
-
谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术
声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。 随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感…
-
音频调试记录!
本文主要给大家分享一下,最近调试音频的感受!作者:飞一样的成长。 音频调试 我相信大家平时学习和开发,可能接触视频编解码会比较多,对h264和h265会比较熟悉一点! 估计大家平时…
-
音频开发中常见的音频卡顿/杂音类型
在音视频开发的世界中,音频卡顿/杂音是一个常见而又棘手的问题。当我们追求高品质的音频流、实时通信或音乐应用时,这个问题就会频繁出现。 杂音是主观体验的概念,技术上常称为音频卡顿,“…
-
什么是语音商务?语音商务的原理和优势
语音商务,又称 v-commerce,是一种创新的购物方式,越来越受到全球购物者的欢迎。语音商务购物者不使用传统的网上购物工具来购买产品和服务,而是使用语音指令。 语音商务市场虽然…
-
如何混音?音频混音入门指南
混音是一个在音乐行业之外鲜为人知的过程。即使是音乐超级爱好者,他们往往知道自己喜爱的唱片制作人的名字,却很少知道是谁混音的。那么,这个过程到底是什么呢?你能自己完成吗?从哪里开始?…
-
CHiME-8多通道远场语音识别Baseline介绍
语音领域每年都有很多比赛,每个比赛都有自己的侧重点,其中CHiME系列比赛的侧重点就是多通道远场语音识别,与其他的语音识别比赛有所区别的是,CHiME提供分布式麦克风和麦克风阵列数…
-
Deepgram推出Aura,一种用于实时会话语音AI代理的文本转语音API
语音识别、自然语言处理和生成式人工智能解决方案提供商Deepgram宣布公开发布文本转语音 (TTS) 技术Aura API,可提供类人质量的对话,其计算速度比其他语音AI替代方案…
-
企业语音技术现状:Enterprise Connect 预览
语音技术是一个范围广泛的话题,就像现在的许多其他事物一样,它正被人工智能所驱动和定义。可以说,人工智能已成为技术领域最被滥用的术语,但它仍在不断将语音技术提升到新的水平,远远超越了…
-
VideoDubber时长可控的视频配音方法 | 论文分享
本次分享由中国人民大学、微软亚洲研究院联合投稿于AAAI 2023的一篇专门为视频配音任务定制的机器翻译的工作《VideoDubber: Machine Translation w…
-
峰值信噪比是什么意思?峰值信噪比越大越好吗
峰值信噪比作为图像质量评价指标,在很多图像领域如图像超分辨率、图像压缩、图像去噪等都有广泛的应用。本文分享下峰值信噪比的几个常见问题,如下。 峰值信噪比是什么意思 峰值信噪比(Pe…
-
XSwitch通信百科之TGML铃音生成
TGML(Tone Generation Markup Language)用于在 XSwitch 内生成各种铃音。TGML 可以直接在 XSwitch 界面上设置,如: TGML …
-
通过asterisk实现小区物业报警语音通知
使用Asterisk实现小区物业的语音报警通知系统可以提高小区安全管理的效率和效果。这样的系统可以在紧急情况(如火灾、入侵等)下自动向物业管理人员、安全人员或居民发送预录制的语音消…
-
面向多种阵列拓扑的多通道语音识别模型:自动通道选择和空间特征融合 | ICASSP2024
多通道语音识别(Multi-channel ASR)的目标是识别由多个麦克风(如麦克风阵列)拾取的多通道音频,相较于标准的单通道语音识别,多通道语音识别通过有效利用多通道信号提供的…
-
AAAI2024 基于异构图上下文建模实现对话语音合成的情感渲染 | 论文分享
本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作,关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Sy…
-
优化回声消除过程:AEC Challenge冠军方案线性部分解析
今天我们继续介绍回声消除的优化,在前面优化回声消除过程:舒适噪声生成算法的应用与原理我们介绍了回声消除中的舒适噪声是如何产生的,这里我们介绍下线性部分的优化。我们知道在WebRTC…
-
语音用户界面:重新定义客户互动
语音用户界面(VUI)、语音搜索和其他基于语音的用户体验(UX)技术正在重塑我们的世界,并彻底改变我们的交互方式。 目前,技术和流程开发的主要重点都围绕着提升用户体验。语音交互旨在…
-
SELM: 基于离散表征和语言模型的语音增强 | ICASSP2024
语音增强 (Speech Enhancement) 旨在从噪声和混响等多种干扰中恢复并提升语音的质量及可懂度,以提升人耳听感和语音识别率。在深度学习的推动下,基于神经网络的语音增强…
-
ICASSP2024 | 基于音频质量的多策略目标说话人提取
目标说话人提取(Target Speaker Extraction, TSE)旨在从包含多个说话人的复杂音频中分离出特定的说话人的语音。在诸如会议交流和家庭聚会等场景中,存在诸多干…