音频技术

技术文章

语音鉴伪&说话人识别

随着语音处理技术的不断提升，伪造语音的身影在社会生活中出现的更加频繁，一方面语音提醒、语音解锁以及短视频配音等自动化语音技术极大的丰富了人们业余生活，但是随之而来的滥用问题也给生活…

音频技术
2023年5月15日
技术文章

语音合成模型NaturalSpeech 2：只需几秒提示语音即可定制语音和歌声

编者按：如果问华语乐坛近期产量最高的歌手是谁，“AI 孙燕姿”一定有姓名。歌迷们先用歌手的音色训练 AI，再通过模型将其他歌曲转换成以歌手音色“翻唱”的歌曲。语音合成技术是“AI …

音频技术
2023年5月11日
技术文章

千字解析线性卷积、循环卷积与周期卷积

我们在对音频信号进行处理时很少会直接在时域进行滤波运算，一般都会变换到频域进行计算。究其原因，我想很多人都听说过：FFT可以快速实现卷积运算，我们今天就介绍下卷积和FFT的爱恨情仇…

音频技术
2023年5月5日
技术文章

MPEG-H 音频：下一代音频 (NGA) 实现个性化

下一代音频（NGA）以现有的音频编解码器和架构为基础，提供前所未有的个性化服务，这部分归功于基于对象的音频资产的方法。John Maxwell Hobbs 报告说，Fraunhof…

音频技术
2023年5月4日
技术文章

Zynq 及 Vitis HLS 助力面向声音合成和声学控制的低时延技术

从音频输入到输出，现有的实时数字音频系统很难实现低于 1ms 的时延。实际上，200µs 是到目前为止可实现的最佳时延。INSA（法国）的 Emeraude 研究团队正在开发 Sy…

音频技术
2023年4月19日
技术文章

基于图注意力机制的音频语意概述 | IEEE SPL

音频语意概述是一项跨模态音频内容理解任务，旨在通过自然语言描述音频信号蕴含信息，使机器具备理解表达音频场景事件语意内容的能力。现有的主流音频语意概述方法几乎均采用在AudioSet…

音频技术
2023年4月13日
技术文章

基于多任务学习的保留背景音的语音转换 | ICASSP2023

在影视、有声书内容中，背景音是一种表现丰富的艺术形式。语音转换（Voice Conversion）如能将源说话人语音转换成目标说话人语音的同时，保留源语音中的背景音，将会提供更沉浸…

音频技术
2023年4月8日
技术文章

苹果专利通过包含确定虚拟听觉环境的传感器来推进空间音频的发展

美国时间4月6日，美国专利商标局公布了 Apple 的一项与空间音频相关的专利申请。该专利深入研究了从 AirPods 到 AirPods Max 再到 XR 耳机等设备中的先进传…

音频技术
2023年4月7日
技术文章

声音信号【音频基础知识】

声音基础声音我们每天都会听见，这是我们听觉对震动的感知，本质上声音是介质的震动，包括固体液体和空气。振动的物体产生压强变化，这些变化将不断往外部扩散移动，这些压强的变化成为声波。…

音频技术
2023年4月6日
应用场景

声学技术行业应用之医疗领域（下）

医用声学是声学与生物医学相互交叉的一个新型研究领域，其研究成果主要应用于超声成像、超声诊断、超声理疗、听觉声学等方面。医用声学的发展对于疾病的早期诊断、治疗，新一代医疗仪器的开发和…

音频技术
2023年4月4日
技术文章

ICLR 2023 | TranSpeech：高质量非自回归语音到语音翻译

语音到语音翻译（S2ST）对于打破语言壁垒与沟通障碍非常有益。传统的 S2ST 系统通常由语音识别（ASR），机器翻译（MT）和语音合成（TTS）三部分组成。与这些级联系统相比，直…

音频技术
2023年3月30日
技术文章

超声波传感器带给无人机更经济的定位解决方案

在3D空间中确定确切位置（如机器人或无人机）是一件很难做到的事情。标准的GPS精度非常低，这就是为什么你的导航系统有时会认为你正在附近的道路上行驶，而不是实际行驶的道路。 GPS-…

音频技术
2023年3月29日
技术文章

基于多因素解耦的高表现力语音合成 | ICASSP2023

人类语音是极富表现力的，包括语调、重读、风格、情感的各种表达。表现力语音合成（Expressive Speech Synthesis）的目标就是准确的表达出语音中的各种表现力因素。…

音频技术
2023年3月29日
技术文章

单声道听觉中的声音方向估计

在周围环境中定位声音的能力是人耳的一个显着特征。通常，听力良好的人使用双耳来检测和解释听觉线索。每只耳朵的声音响度或到达时间的差异为我们提供了有关声源位置和方向的重要信息。然而有趣…

音频技术
2023年3月29日
技术文章

TEA-PSE 3.0: 深度噪声抑制（DNS）竞赛个性化语音增强冠军方案解读 |ICASSP2023

实时通信 (RTC) 在我们的日常生活中变得不可或缺，诸如腾讯会议在内的语音RTC应用已经成为我们日常使用的在线交流工具。然而在通话过程中，语音质量受到背景噪声、混响、干扰说话人等…

音频技术
2023年3月28日
技术文章

基于预训练和图网络的语音主题分类 | IEEE ICME 2023论文

研究背景：随着网络科技的不断进步，短视频的个性化推荐，会议的录音记录等相关的音频信息在我们的生活中扮演着越来越重要的作用。如何能在海量的语音信息中，准确的进行语音信息的分类和定位，…

音频技术
2023年3月27日
应用场景

声学技术行业应用之医疗领域（上）

声学技术是一门研究声音的物理、工程和应用的学科，它的应用范围涵盖了从音乐到工业制造等多个领域。然而，在医疗行业中，声学技术的应用却有着特殊的重要性。声学技术在医疗方面最伟大的贡献…

音频技术
2023年3月27日
行业资讯

LE Audio爆发在即，高通、炬芯、中科蓝讯、泰凌微电子已推出解决方案

近几年，无论是耳机、音箱、麦克风等传统音频产品，还是拓展了智能音频功能的眼镜、头盔、儿童玩具等创新设备，蓝牙技术在音频市场得到了广泛的应用，为消费者提供了更加自由、灵活、便捷、便携…

音频技术
2023年3月27日
技术文章

Scaper：声音事件检测数据合成工具

在声音事件检测应用中，训练数据主要有两种类型：强标签数据和弱标签数据。强标签数据：在一段音频中，每个事件有明确的起始时间和结束时间的标注，具体的形式如下：{“even…

音频技术
2023年3月26日
技术文章

语音识别系列之基于脉冲神经网络的语音唤醒

语音唤醒（Keyword Spotting，KWS）是较为初级的语音识别任务，在2014年陈果果的工作[1]后，学界兴起大量研究，业界也获普遍应用，如智能家居（音箱、TV）、智能穿…

音频技术
2023年3月20日