音频技术
-
揭秘未来音频趋势《音频产品使用现状调研报告:空间音频》
无论是手机、电脑,还是音响、耳机,音频产品通过声音回放的形式,为用户提供了美妙的声音体验,从而广泛融入到了大部分人的日常生活之中。而音频从最早的留声机的单声道,到双声道、立体声,再…
-
基于Kaldi的语音识别引擎后端架构设计
1 概述 语音识别技术,是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术,另一种是目前流行的基于深度学习模型的端到端语…
-
语音转录是什么意思? AI语音转录方案有什么优势
语音转录是什么意思 语音转录是指将口语转换为书面文字的过程。在当今世界,实时音频和视频已经成为一种主要的沟通方式,语音转录解决方案的需求量很大。它在使这些沟通更有包容性、更容易获得…
-
语音识别如何改善电信业客服体验
近年来,电信业出现了大量 AI 驱动的技术,尤其是语音识别和翻译。多语种 AI 虚拟助手、数字人、聊天机器人、语音客服、音频转录等技术正在大幅改变电信业。企业正在呼叫中心部署 AI…
-
SIP呼叫复杂转接流程处理最佳实践-RFC5589概论
企业通信电话系统是企业员工和客户之间语音沟通的桥梁,虽然现在的语音业务收入处于下滑状态,但是,根据各种通信工具使用效率的调查来看,整体来说,通信效率最高的仍然是语音呼叫。因为环境的…
-
使用骨传导耳机提高语音的词语清晰度
骨传导(Bone-conduction ,BC)耳机通过在耳朵附近的骨骼或皮肤(包括颞肌)产生振动来增强听力。它们保持耳道处于开放状态,同时让周围的空气传导(air-conduct…
-
元宇宙中的实时音频:REAL-TIME AUDIO AT META SCALE
本文将涵盖在 Meta 旗下的应用程序包括 Messenger、Instagram、Facebook 和 WhatsApp 中为用户提供可靠且高质量的音频体验所需的要素,以应对各种…
-
如何使用React和NestJS录制高质量的现场音频(高达48KHz,立体声)?
在许多 Web 应用中,我们可能需要为许多目的录制音频,如语音转文字、记录对话、实时音频/视频会议、语音消息、语言学习和发音练习,以及用户反馈和客户支持。 使用 MediaReco…
-
深度学习在声源定位中的应用
什么是声源定位(Sound Source Localization,SSL)技术?声源定位(SSL)是基于记录的多通道传声器信号来估计一个或多个声源相对于某个任意参考点的位置的问题…
-
音频文件PCM代码走读
紧接上篇文章音频格式PCM介绍,本文介绍PCM代码相关内容,废话不多说,干活奉上。 PCM采集 首先需要了解模拟信号采集过程。通过ADC(模数转换器)将模拟信号转换成数字信号。然后…
-
解密实时通话中基于 AI 的一些语音增强技术 | ICASSP 2023
背景介绍 实时音视频通信 RTC 在成为人们生活和工作中不可或缺的基础设施后,其中所涉及的各类技术也在不断演进以应对处理复杂多场景问题,比如音频场景中,如何在多设备、多人、多噪…
-
研究人员带来分析未标记音频和视频数据的新技术
来自麻省理工学院(MIT)、麻省理工-IBM沃森人工智能实验室(MIT-IBM Watson AI Lab)、IBM研究院(IBM Research)和其他机构的研究人员开发了一种…
-
音频格式PCM介绍
PCM指的是脉冲编码调制(Pulse Code Modulation),是一种数字信号处理技术,将由波形表示的模拟音频信号转换为由1和0表示的数字音频信号。这个过程涉及对模拟信号进…
-
音频“扩容”?4K超高清电视转播环绕声信号如何制作
2021年12月,央视杯2021中国男子手球超级联赛决赛阶段的比赛,在安徽合肥体育中心体育馆举行。安徽有“手球之乡”的美誉,当地许多中小学也成立了手球队伍。手超联赛首次落户合肥,正…
-
AI音质修复 | 人工智能与声学
随着耳机、车载等音频平台迅猛发展,各厂商除在ANC, ENC, KWS, SV, ASR, TTS等常规功能开展竞争之外,在音质方面也逐步提高标准。无损音乐经编码、蓝牙传输后,如何…
-
浅析主动降噪技术——给世界装上静音键
4月26日是国际噪音意识日(Noise Awareness Day),在这一天,Apple公布了和密歇根大学合作展开的听力研究进展。自2019年开始,Apple就有意识地…
-
微软推出 Hierarchical Transformer 实现更高准确率的语音评测
对于语言学习者来说,练习发音并获得及时准确的反馈,是提高口语水平的重要环节。多年来,微软一直深耕基于 Azure 认知服务的语音功能,不断优化语音评测[1]功能的底层技术,从准确率…
-
为什么我们能判断声音的远近 – 初始时间延迟差的作用
在文章(为什么我们能判断声音的远近)中我们说到,在听觉信号中存在着一些线索可以供我们来判断声源的距离远近。这篇文章就以其中的一个线索–初始时间延迟差为例,来介绍应该如何…
-
杜比 Ac-4 与 MPEG-H:下一代音频编解码器
下一代音频 (NGA) 的两个领先实现是杜比 AC-4 和 MPEG-H。尽管它们都基于 ITU 的一套核心建议,但它们有不同的起源、优势和局限性。 杜比 AC-4 与 MPEG-…
-
掩码语言模型(MLM)的加权采样策略 | ICASSP2023
本次分享阿里巴巴达摩院语音实验室、新南威尔士大学与香港科技大学(广州)等在ICASSP2023会议发表的论文《Weighted Sampling for Masked Langua…