近日,在由全球语音技术顶尖会议INTERSPEECH 2022与微软联合举办的音频丢包隐藏挑战赛中,快手音视频技术团队在主办方评估的丢包隐藏平均主观意见分(PLCMOS),深度降噪平均主观意见分(DNSMOS),众包平均主观意见分(CMOS)和语音识别字准确率(WAcc)四项指标中均排名第一,综合得分获得世界冠军。
在语音通话、直播互动等实时通讯场景中,网络传输条件限制造成的音频数据包丢失问题,会对通讯过程中的音质体验带来极大负面影响。在语音数据包丢失的情况下,丢包隐藏(Packet Loss Concealment, PLC)技术能够根据接收到的音频信号恢复丢失信息,从而保障弱网下音频音质,并提升用户体验。在实际应用中,PLC技术一般需要通过系统延迟、主观意见分数和语音识别准确率等多个指标进行衡量。
本次音频丢包隐藏挑战赛盲测集数据多达近千条音频,涵盖了多说话人语音音频、噪声音频和音乐等多种类型。并且,采用真实场景采集的丢包模型对上述音频进行丢包处理,丢包率涵盖多种网络条件下的丢包比例,部分数据丢包率高达80%以上。
此外,本次比赛要求参赛队伍的算法延迟不超过20ms,低延迟下对多样化、高丢包率数据的处理也为本次比赛的任务增加了不小的难度。
针对以上任务,快手音频团队研发了一种基于神经网络的低延迟端到端PLC系统,原理图如下图2所示。
该系统基本架构为生成对抗网络(Generative Adversarial Network, GAN),由生成器(Generator模块)和判别器(Discriminator模块)组成,并创新性地提出了综合考虑主观听感、客观指标等多样化评估标准的组合损失函数(Multi-Loss模块),基于上千小时的多样化数据进行训练,使得系统能够将输入的丢包音频和丢包信息进行处理,最终输出高音质音频信号。
后续,以该PLC系统为代表的快手语音编解码技术将继续提升和优化,并将在快手的实时通讯场景中逐步落地,为弱网环境下的音频交互体验保驾护航。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。