音频技术
-
ICLR 2022|通过提炼特征对应关系进行无监督语义分割
与以前使用单一的端到端框架来实现这一点的工作不同,这篇文章建议将特征学习从集群紧化中分离出来。当前的无监督特征学习框架已经产生了密集的特征,其相关性是语义一致的。这一观察结果促使研…
-
Krisp-浏览器中执行实时音频机器学习应用
Krisp 的音频 SDK 包括了音频去噪、行为检测、背景音消除的功能。目前 Krisp 的 SDK 已经可以在各种设备和平台上进行部署,但目前还存在的挑战是在网页端还不可用。 在…
-
坐席辅助系统中语音与文本的碰撞
编者按:在贷后催收行业中,每个公司每天的录音量可达上万小时,因此语音识别功能对其非常重要。今天LiveVideoStack大会邀请到了洞听智能的张玉腾老师,为我们介绍在坐席辅助系统…
-
利用ffmpeg合并与分离音频和视频
一、当视频文件中没有音频时 将audioname音频与videoname视频替换 二、当视频包含音频时 用audioname音频替换videoname中的音频 说明: videon…
-
小布助手:业界首个基于对话音频的小样本语音合成技术实践
01 背景 传统基于神经网络的语音合成方法TTS已成为主流,技术相对也比较成熟,但是需要大量发音人的原始录音数据,制作成本相对较高。因此,少量语音样本的自定义TTS技术是语音合成领…
-
语音识别系列之CTC延迟削减
连接主义时间分类(Connectionist Temporal Classification, CTC)是自动语音识别(ASR)领域的一项经典技术,它的算法简单而优美,漂亮地解决了…
-
卡内基梅隆大学团队推出适用于数千种语言的语音识别项目
全世界使用的7000到8000种语言中只有一小部分受益于现代语言技术,如语音到文本转录、自动字幕、即时翻译和语音识别。卡内基梅隆大学的研究人员希望将自动语音识别工具的语言数量从大约…
-
什么是双音多频 (DTMF) 信号?
联络中心有自己独特的语言,充满了 IVR、ACD 和 CRM 等首字母缩略词。这些概念指的是联络中心用来推动更好的客户和员工体验的特定工具、系统和方法。 双音多频 (DTMF) 是…
-
一文看懂空间音频(空间音频技术及应用场景)
写在前面:从单声道,发展到双声道,再到多声道,以及环绕立体声,数字音频的表现力越来越生动。空间音频(也叫三维声、3D音频)不是简单的通过更多声道让声音更有立体感,而是和视频空间化同…
-
音频属性之声道、采样率、采样位数、样本格式、比特率【建议收藏】
不仅限于FFmpeg, 音频采样所得的PCM都含有三个要素:声道(channel)、采样率(sample rate)、样本格式(sample format)。 声道 当人听到声音时…
-
语音识别系列之基于CTC的VAD
语音活动性检测(Voice Activity Dection, VAD)常作为语音识别系统的前端模块过滤非语音段,为后续增强模块提供语音/非语音判据,从而更好的掌握背景噪声特性,进…
-
FFmpeg实现将音频声音变细或变粗
在做录音机磁带倒带或者磁带受潮的时候,音频的声音会变得特别细或者特别粗,主要因素还是播放的时候采样被改变所致,下面来看一下用ffmpeg如何实现对应的效果。 通常单设置采样率时是无…
-
FFmpeg实现用一个音频覆盖另一个音频某个区域
本文重点介绍用FFmpeg实现使用一段音频覆盖另一段音频的某个区域的功能,大概示意图如下: 要实现这样的效果,分析后主要需要以下步骤: 将音频A的30s拆分成三段: 需要播放出来的…
-
使用FFmpeg做音速处理
在做音视频处理技术的过程中,有时候会需要对音频进行速度的调整,比如调快,调慢等,而在FFmpeg中已经有滤镜可以支持这样的调慢、调快的功能,主要是通过atempo滤镜来进行操作,下…
-
使用ffmpeg实现合并多个音频为一个音频的方法
使用ffmpeg实现合并多个音频为一个音频可以使用ffmpeg的filter功能来进行这个操作,而且效果很好 amerge也可以实现,但是这里就介绍一下使用amix来做的方法 ff…
-
苹果又推出空间音频新专利,继续发力空间音频领域
苹果近日获得了一项专利,涉及计算机化数据处理系统和音频处理方法,特别是空间音频处理。 更具体地说,该专利涵盖了“空间音频缩混”及其可用硬件。未来的高清电视和流媒体服务(如Apple…
-
空间音频在视频会议场景中的应用
编者按:空间音频(Spatial Audio)在影院、游戏、虚拟现实、舞台录音等场景中得到了广泛的应用,它提供给用户更加接近于真实的听觉感受。空间音频的实现方式有多种,常见的有基于…
-
BiSeNet V2:用于实时语义分割的带引导聚合的双边网络
本文提出了一种能有效权衡速度和准确度的高效框架 BiSeNet V2,它包括一个细节分支和语义分支。由于减少了通道数并采取了快速下采样策略,语义分支是一个轻量分支。此外,设计了一个…
-
什么是VoNR,5G 语音终极解决方案
今天我们聊聊 VoNR 吧。 先来简单回顾一下语音业务演进史 过去是未来的镜子。在了解 5G 时代的 VoNR 之前,有必要回顾一下移动网络语音业务演进史。 2G、3G 时代,语音…
-
21dB专访 | 喜马拉雅“耳朵经济”背后的音频技术
喜马拉雅是国内知名的在线音频内容平台,从2012年成立至今已走过10年。在短视频平台强势崛起的现在,在线音频平台仍在特定的使用场景中深受用户的喜爱,而喜马拉雅是其中的佼佼者。 根据…