音频技术
-
SELM: 基于离散表征和语言模型的语音增强 | ICASSP2024
语音增强 (Speech Enhancement) 旨在从噪声和混响等多种干扰中恢复并提升语音的质量及可懂度,以提升人耳听感和语音识别率。在深度学习的推动下,基于神经网络的语音增强…
-
ICASSP2024 | 基于音频质量的多策略目标说话人提取
目标说话人提取(Target Speaker Extraction, TSE)旨在从包含多个说话人的复杂音频中分离出特定的说话人的语音。在诸如会议交流和家庭聚会等场景中,存在诸多干…
-
紫光展锐 M6780 在智能语音技术领域的技术创新
智能语音技术是一种基于人工智能和语音识别技术的创新领域,它使得智能终端能够理解和处理用户的语音指令及交流。在智能家居和物联网领域,随着智能家居设备的普及和用户对便捷交互的需求增加,…
-
FreeTalker: 基于扩散模型的可控语音和文本驱动的手势生成 | ICASSP 2024
目前的工作主要基于话语的音频和文本生成共语手势,却忽略了说话者的非语言动作。为了解决这一问题,我们提出了FreeTalker框架,这是目前首个能生成自发(如共语手势)和非自发(如在…
-
音频质量:隐形技术可促成或破坏合作
随着分布式员工和虚拟协作成为日常工作不可或缺的一部分,会议技术的质量比以往任何时候都更加重要。 IDC 对全球 600 名企业领导者进行的一项研究表明,要确保集中协作和清晰沟通,出…
-
语音生成初创公司Resemble AI利用人工智能技术恢复旧音频
语音生成初创公司Resemble AI专注于提升音频的保真度。这家初创公司还为企业提供了人工智能语音生成器,用于创建更逼真的配音,并推出了“ ResembleEnhance ”这种…
-
什么是 FreeSWITCH API?FreeSWITCH API 如何用于语音
FreeSWITCH 已成为一个功能强大、开源、服务器优化的实时通信应用程序,特别强调语音。它的多功能性和广泛的特性使其成为许多语音通信应用的理想电话平台,从简单的语音呼叫到复杂的…
-
LivelySpeaker: 面向语义感知的共话手势生成 | ICCV 2023
手势是人们讲话时伴随的重要行为,尽管以前的方法和技术能够生成与讲话节奏同步的手势,但这些手势通常缺乏讲话的语义背景。尽管在人类讲话中语义手势并不是非常普遍,但它们对于观众更深入理解…
-
ASRU2023 | BA-MoE: 基于边界感知混合专家的中英混杂语音识别
语种混杂(Code-mix)是一句话中交替使用两种或多种语言的行为,在当今全球化和文化多样的世界中变得越来越普遍。这种语言现象对语音和语言处理任务,特别是语音识别(ASR)形成了新…
-
座舱音频系统的架构设计和音频体验
编者按:近年来,智能座舱体验日益成为汽车竞争力的核心,智能座舱的多样体验正在成为用户购车时考虑的重要因素。 LiveVideoStack2023深圳站邀请到蔚来汽车座舱音频系统软件…
-
VoIP:高质量音频和持续测试的重要性
VoIP 是指语音经过压缩后通过互联网传输到接收端的过程。在接收端,语音被解压缩成可听的声音。 与传统电话线相比,使用 VoIP 有许多好处。 VoIP 质量测试的重要性 尽管可以…
-
AVS VR音频标准落地,AVS车载三维声现场沉浸式体验
2023年12月13日-16日,AVS工作组第八十七次会议在成都成功举行。 AVS音频组组长窦维蓓在开幕式工作汇报中,介绍了《虚拟现实内容表达 第3部分:音频》中“非GY/T316…
-
什么是数字音频水印?数字音频水印的分类和应用
数字音频水印是一种将隐藏的信息嵌入到音频文件中的技术,以实现识别、验证或保护音频内容的方法。随着互联网的普及和数字化技术的发展,音频数字水印技术应运而生。其主要目的是在不影响音频质…
-
语音质量测试新手入门指南
我们都经历过与企业的交互式语音应答(IVR)系统交互的情况,由于语音质量差,几乎无法完成自动任务或在需要时获得 “自助”。听着断断续续的提示音,听着线路上的…
-
流媒体视频的最佳音频比特率是多少?
音频流媒体的世界在不断发展,越来越多的人开始享受数字音频内容。随着市场的扩大,许多人从传统媒体转向音频和视频流媒体。然而,提供高质量的音频内容可能是一项具有挑战性的任务。 影响流媒…
-
最新全球研究发现,需要更加重视高品质音频
舒尔最近委托市场公司 IDC* 开展了一项全球研究,以揭示企业在混合工作中面临的挑战,以及高品质音频如何成为帮助企业优化日常沟通、客户体验和团队满意度的 “隐形影响因素…
-
空间音频体验与评价方案
空间音频算法现状 什么是空间音频/3D音频 区别于传统单通道和立体声音频,3D音频是一种带来三维沉浸式音频体验的新范式,其在制作、传输分发、端侧渲染端到端全链条都引入了更复杂的音频…
-
AI语音技术为企业带来好处和风险
语音识别技术一直是企业通信领域的核心技术。语音技术已经相当成熟,并提供了很高的实用性,特别是在电话和会议室方面。但是,随着人工智能的出现,语音的新应用也在不断涌现,需要从不同的角度…
-
分享一个 Python 处理音频的库:pydub
以前我们介绍过 moviepy,它是一个处理视频的第三方库,基于 ffmpeg。那么本次来分享一个处理音频的库 pydub,它同样是对 ffmpeg 进行的一个封装。 既然是封装,…
-
AI降噪的N种损失函数
这是AI降噪的第二期,上一期我们介绍了AI降噪的N种数据扩增方法,这一期我们介绍下AI降噪的一些损失函数。 降噪,或者语音增强,经过近50年的研究发展,涌现出了很多优秀的降噪算法,…