对话钉钉音视频专家冯津伟：大模型不是万能的

在音视频技术领域，ICASSP 大会是行业的风向标会议，也是语音学界从业者研究下一代技术发展的盛宴。近期，国内外各大企业陆陆续续放出论文入顶会的消息，钉钉蜂鸣鸟音频实验室 2 篇论文也登上了 ICASSP2023。

其中，实验室提出了“用一个 AI 模型同时消除回声、噪音和混响三种干扰音”的新研究，可以使得计算量和带宽更节省，延迟更低，同时音质效果也更好。这一项研究到底能解决什么问题，实现什么效果，用在哪些场景，是我们非常感兴趣的。

此外，随着 AIGC 技术的到来，每个行业都在面临着一场人机交互体验的变革。大模型的发展，对音视频领域到底有什么影响，是我们所关注的另一项重点。基于这两重因素，我们最近也和国内音视频领域的专家，钉钉蜂鸣鸟实验室负责人冯津伟博士做了一些沟通。

在与冯津伟交谈的过程中，我们了解到他们团队不仅把自研的 AI 模型用在了降噪、回声消除和去混响中，目前已落地于钉钉会议软件、Rooms 和钉钉会议一体机 F1/F2 上，并且在技术开放的过程中，他们还原创了一种麦克风阵列技术，用以解决线下开会坐得太远听不清的问题，引起了业内广泛关注。

在谈到 AIGC 及未来的技术革命时，冯津伟表示目前 AIGC 对行业的冲击还没那么大，一是大模型暂时对音视频的实时性缺乏有效的解决方案；二是不同于 AIGC 的推理和生成能力，在声学、底层算法层面更注重用 AI “还原真实” ，将采集到的音视频信息尽量还原成如同线下开会的临场感，比如解决音频处理的三大难题——回声消除、降噪和去混响。

在冯津伟看来，蜂鸣鸟实验室的定位，是既能在大模型的赛道中结合应用场景做落地，比如会议的智能摘要，同时，又是一个擅长工程化的团队，能研发从声学原理、信号处理到软硬件产品全流程的技术。这些技术和 AI 相关，但又不是大模型。“以深度学习为代表的 AI 技术的发展与成熟，会对音视频关键技术的突破提供新的方向。那些传统技术无法解决的问题，可以通过与 AI 的融合降低问题解决的难度，比如 AI 降噪。”冯津伟说，这也是钉钉会议在底层技术上的探索方向。

本文由 LiveVideoStack 和冯津伟的对话整理而成，以下经整理后有删减。

一、AI 的到来，给音视频行业注入哪些新惊喜？平行云与元宇宙

LiveVideoStack：你如何看待当下爆火的 ChatGPT、大模型、AIGC 等新兴概念与技术？

冯津伟：首先我们要肯定 AIGC 带来的价值，不同于元宇宙的一阵风，AIGC 能给许多行业带来真正的价值，例如帮助文案人员提升创作效率。现在 AI 已具备了初步的通用人工智能 AGI，这是与以前质的区别。

虽然人类目前还只具有初步的通用人工智能，但技术的发展不是线性的，而是跳跃性的。大家经常说奇异年和奇异点，爱因斯坦的 1905 年就是一次技术奇异年，用上帝视角来看的话，这两年我们可能正处于技术奇异年之中。回到音视频行业，我觉得目前 AIGC 对它的冲击还没那么大。

第一，影响肯定有，钉钉也在探索应用场景，比如会议摘要，大模型嵌入音视频之后最直接的一项改变就是对会议内容的提取、总结。

第二，大模型暂时对音视频的实时性缺乏有效的解决方案，音视频应用能接受的延迟是几十毫秒或最多两百毫秒，要求很高。音频算法处理是一帧一帧（例如帧长为10毫秒）的，即流式处理，这就要求每一帧数据必须在10毫秒内处理完毕，把处理后的数据发送到音视频系统的下一个模块后，继续处理下一个10毫秒的数据，周而复始，但目前的 AIGC 显然还没有这样的流式处理能力来支撑。

第三，在声学、底层算法层面，大模型它目前的擅长的是检索、推理和生成，但在音视频应用里，更注重用 AI “还原真实” ，要实现线上开会达到和线下开会一样的“临场感”，比如我们用 AI 模型解决音频处理的三大难题——回声消除、降噪和去混响，即智能 3A 算法。我们会持续关注，可能在某个时候，技术奇异点就会带来意想不到的应用。

LiveVideoStack：你刚刚聊到 3A 算法，这次有一篇入选的顶会论文讲的也是这个话题，在你们的研究发现下，传统算法和 AI 算法有什么最大不同？这项技术是否落到了你们的产品里？

冯津伟：我们这次有一篇论文讲的是《实时全带语音通信中深度窄带网络用于回声，噪音和混响的联合消除》，背后其实我们做的是一个“一模型，多任务”的研究。这项研究是用来验证 AI 有能力做到一个模型同时处理这三种干扰音这件事的，这也符合在 AI 领域里多任务学习更能学到通用表达, 提高泛化能力的共识。

之前技术大多都是分开来处理回声、噪音和混响这三种干扰音，每个单独模块在计算量累加，算法延迟累加的同时，还容易导致鲁棒性下降，无法对音频链路进行全局优化。

我们的实验表明，在三个公开的测试集里，相比于 state-of-the-art 专门用于子任务的模型，我们的模型在远端单讲场景下效果提升 57%，双讲场景下提升9%，去噪和去混响后语音质量提升5%和8%，部分研究成果也已经落地到了我们的产品上。

我觉得传统算法和 AI 算法的不同在于对数据建模的不同路径，一个是基于数学解析表达式的相对简单的建模，如高斯分布等，对于较吻合的场景比如稳态噪音信号，传统算法处理效果还是可以的；另一个是data driven的建模，深度学习强大的建模能力使得 AI 算法能处理更复杂场景下的任务，尤其是当训练数据足够丰富的情况下，这也是目前 AI 算法在效果上有一个质的提升的原因，如非稳态噪声的去除，时延抖动下的回声消除。传统方法一般计算量比较小，可解释性好，我认为这两个途径也是互补的。

目前我们正在对这项技术做扩展性研究，比如消除在工位场景下同事说话产生的背景干扰音，这也是目前会议软件的痛点之一，还有把所有的算法都放进同一框架中，以节省计算量、降低延迟等等。

LiveVideoStack：那你怎么看待两种 AI 之间的关系，及你们接下来的投入计划？

冯津伟：我觉得这两种 AI 并不互斥，一个是在应用层的智能化探索，另一个是在专业场景下对底层技术的支撑。

目前 AI 在音视频里面我觉得一个比较重要的应用，也是我们今年已经落地的一个应用，就是会议摘要或者总结。我们这次5月底的钉钉斜杠“/”邀测，也包括了这项能力，它可以帮你生成逐字速记，还可以自动分章节、分议题生成摘要与待办。这样一来，两三个小时的超长会议，浏览一下智能纪要 3 分钟就能看完了。

这些 AI 的场景能力，比如转写、摘要与音频 3A 技术（去混响、噪音、回声）并不互斥。3A 技术对上面讲到的场景是强有力的底层技术支撑的，声音更清晰后内容识别也会更准确。所以即便是 AIGC 来了，这些底层技术还是要去持续优化、攻坚的，还是要持续投入资源。

另外，AI 技术在音频中还有非常多的潜在应用，例如，无参考音质评估、Personalized SE、NetEQ、LPC和音频超分技术等。AI 技术也能解决一些传统方法解决不了的问题，例如，网络延时抖动时或者设备移动时产生的回波。我们希望通过这一系列的工作能够真正帮助用户做到信息无障碍的交流，这也是我们认为技术最有价值的部分。

二、技术路线和开放策略的独特性

LiveVideoStack：你们的技术路线听起来跟其他的公司不太一样，你怎么看待商业公司里面做技术这个话题，以及你们这两年有没有一些实例？

冯津伟：蜂鸣鸟音频实验室的工作是以产品为导向的，新技术的研发要以落地产品为目标，新技术的立项也是以解决用户问题为目的的。

作为一家商业公司与技术公司，产品必须要有竞争力，才具备商业化的基础，所以我们工作的大部分时间都专注于产品。我们的另一部分工作，则是希望能够深入打磨技术，研发“领先市场半步到一步”的技术，而不是只做基础理论研究，理论研究是大学实验室或者政府研究所做的事情，是他们的定位。自实验室成立以来，还是有很多实际进展的。比如，我们把人工智能技术引入到了整个音频链路中，让 AI 模型不仅仅用在降噪、去回声和去混响上，也在研究如何用于丢包补偿，音频超分和编解码器。

目前，钉钉自研的 AI 降噪算法已经落地，将会陆续应用到钉钉会议的各个产品形态中，这也是行业内首家落地全带语音 AI 降噪的会议平台。到目前为止，国内外会议软件只有钉钉与 Google Meet 是使用全带语音通讯的，但 Google Meet 还没有做 AI 降噪。

钉钉自研降噪算法的技术特点是降噪量大、计算量小，但语音保真度高。降噪的同时对语音造成损伤是目前市面上几乎所有 AI 降噪技术都存在的问题，所以我们在算法设计时尽可能地对语音成分进行了保护。

此外，我们研发了一个创新性的会议设备转移技术，来提升会议室开会的便捷性。设想一下，你一开始是用手机入会的，当你到会议室时，你不需要再在会议室设备上输入冗长的会议码入会，你只要在你手机上点一下 button，会议就自动转移到了会议室设备上去了。

第三，在打磨产品体验的过程，我们团队还提出了一种原创的麦克风阵列技术，在 INTERSPEECH 和 ICASSP 发表了系列论文后，有多篇论文在 follow 我们的研究。目前，这一技术也落地到了我们的硬件产品会议一体机 F2 中，同时还开放给了生态伙伴。一家国际知名品牌经过严格测试后，决定与我们进行深度合作，目前他们的产品将很快上市。

LiveVideoStack：那在用技术支撑产品的过程中，比如这次把 AI 降噪落地产品的经历里，有没有痛苦的回忆？

冯津伟：有，实际上既有成功的经验，也有痛苦的回忆。

成功的经验，例如，我们视频会议一体机 F1 这个产品从0开始在6个月内就全面推向了市场，目前的市场占比大概是1/3，非常成功，这是技术和产品、和业务团队无缝合作的结果。

大家都知道，研究并不能保证一定出成果，它本身具有很大的不确定性。这次 AI 降噪落地产品其实也有些曲折，在前期阶段的效果不明显，大家都怀疑是不是方向错了。后来，团队没放弃，不断地做数据和网络框架的改进，终于得到了一个满意的结果。这个结果，我们也跟国内外的竞品做了对比，降噪效果是能进入行业第一梯队的。

当然也有一些遗憾的事情，我们做技术的，有时经过一段时间的研究努力有了成果，但出于各种原因，最终没有产品化，这会让我们感到遗憾，因为我们希望我们的技术能让更多用户从中受益。

LiveVideoStack：在后来，这些技术成功落地后，开放给了哪些行业合作伙伴，他们的评价是什么？有没有让你记忆深刻的？

冯津伟：开放给了许多生态伙伴，比如罗技、英特尔、联想都在使用我们的算法和模组。

特别是去年8月，我们给影石 Insta360 开放了整套的算法与工程化方案，他们对我们的远距离拾音、智能降噪、声源定位技术都非常满意。我们希望通过算法能力和技术模组的开放，让更多产业链中的伙伴可以快速复用，实现设备的智能化升级。

顺便提一下，我们对生态伙伴还提供了一套完整的兜底服务，提供驻场服务，并通过行业高级认证的评测，确保伙伴的产品性能达到设计预期，这也是我们在生态合作上一个差异化的地方。

一些生态伙伴在了解完我们的技术和服务模式后，果断选择跟钉钉会议合作，还有一些客户慕名而来，在技术上无条件信任我们，这些案例让我印象很深。

LiveVideoStack：最后一个问题，技术再牛逼也不能闭门造车，作为技术人，你是怎么看技术、产品与商业的关系的？

冯津伟：我认为，技术只是商业成功的必要条件，不是充分条件，这在历史上有很多案例。

第一，技术公司的技术一定要有先进性，才能赢得市场，因为许多技术行业的一个特点是赢者通吃，即 winner takes it all。芯片行业就是一个很好的例子，头部就那么一两家，技术发展又是日新月异的，所以我们做技术研发的同学也时常会有危机感。

第二，做技术还有一个聚焦和专注的问题，因为技术资源永远都是有限的，需求永远都做不完。站在我的角度，对于技术产品体验上的专注是最重要的，但这种专注并不是技术人闭门造车，还是要结合整个钉钉、以及钉钉音视频事业部的战略，再结合客户真正的需求痛点，了解哪些是主线、哪些影响本质。这一层的东西，是需要做深做透的。

最后，冯津伟还和我们分享了他最近看的《半导体简史》，或是深受书中技术发展史的启发，他向我们描绘了自己对于音视频行业的畅想蓝图。