专访荔枝音频负责人沈俊聪：看好“增强声音”在未来的前景

前段时间恰逢LVS在ZEGO总部举办城市技术沙龙，沈老师作为主讲嘉宾分享了《元宇宙中的音频技术探讨》，我们也趁热打铁，在会后拜访沈老师进行一次深度的交流和学习。

沈俊聪老师作为荔枝集团音频负责人，深耕音频技术领域多年，自2013加入荔枝后带领团队攻坚克难，屡屡完成重要项目，是音频技术领域的资深专家。这次有幸直接地采访到沈老师，是难得的学习机会。

本次采访围绕音频技术与元宇宙展开，现将采访内容整理分享，相信沈老师的经验与看法，能够对所有投身社交、互动的从业者有所启发。

以下为正式采访内容

Q1：随着XR设备的进化和普及，语音社交会如何变化？

A1:

VR、XR，这种从终端设备的演进可能会带来很多交互方式的一种改变，就像移动互联网时代iPhone的问世，到后来现在很火的智能音箱，其实很多这种交互方式发生了很大的改变。

便携式VR这种肯定会对未来无论视觉还是声音上的一些交互产生很大的影响。

像Meta的Oculus 已经有了第二代产品，它的体验效果已经比第一代有了长足的进步。

但是被优化的部分集中在视觉呈现，而在声音体验上的改善和进化其实是微小的，相对视觉效果的进化不明显，没有什么很亮点的东西。甚至还不如你用的iPhone连着airpods的体验，XR设备的更新目前来看更多的是以视觉为发起点对现在的很多交互体验的一种颠覆。

同样在其他的实际应用领域比如游戏，过去15年到20年间，视觉技术的进步是相当巨大的，我们从像素化的方片人，然后到现在几乎全拟真的能够去拍电影，包括最近虚幻5的问世，画质、建模精度、演算能力完全是有一个质的飞跃。

但是我们如果说到声音的话，好像确实游戏也好，影视作品也好，真正的从声音上带给人那种前所未有的冲动体验的次数是极少的。

所以目前来看，XR等设备的迭代进化，可能对语音社交来说，带来的影响应该是不大。

可能现在大家对于元宇宙到来之后，声音到底该怎么玩，可能现在是2.0要怎么去把声音变到3.0，大家还是都比较模糊，没有一个很明确的一个探索方向。那么逆向去想：在这一块是不是越少人想到，反而证明他越有去探索的价值？

Q2:元宇宙不断发展延伸，音频技术将会占据一个什么样的地位？会如何呈现呢？

A2:

元宇宙世界中，沉浸感的打造离不开声音。刚才的问题我有提到，我们目前在增强视觉这一块有比较长期的发展，也取得了非常亮眼的进步；但是对于听觉感受来说，如何在线上收获线下难以实现的声音体验，「增强声音」的技术却鲜有人提及。

举例来说，ZEGO是做了多年RTC的厂商，音频、视频都是常态业务，但现在对于元宇宙场景想象中，Avatar和场景建模会占据用户的绝大部分视野，视频流的传输在元宇宙当中的占比将会缩小，真人通过视频面对面的场景也会减少；但语音则不同，社交音频不需要占用玩家的视野，甚至当大多数人都在用虚拟的Avatar形象在元宇宙中跑来跑去的时候，依然会有相当部分的用户选择在元宇宙中使用自己真实的声音。音频对于未来的元宇宙而言，不会因为视觉效果愈发华丽而失宠，反而将扮演更重要的角色。

另一方面，当信息仅通过声音来传递时，用户的注意力会更加专注，更能感知到这个声音带来的一些情绪，他背后带的一些情绪，通过这些情绪和一些细微的声音的特征，你就能感知到，更能去理解对方要表达的东西，甚至察觉到他背后有一些不想说的话，更有助于交流。

而从呈现形式来说，「增强声音」有很大的想象空间，比如在戴上VR眼镜的时候用熄掉屏幕闭上双眼带来更好的倾听专注度；用更好的算法实时地优化用户的声音，配合元宇宙场景，让用户体验到明星登台演唱的震撼。

Q3:现在市面上的很多被称为“元宇宙”的游戏平台，玩家间主要的交互手段还是通过文字、表情消息来完成，您觉得在未来语音社交会替代掉大部分的文字交流吗？

A3:

我觉得不会，因为就像现在大家在微信里面其实也是文字交流为主，你提到的游戏场景，我个人觉得和目前微信当中的日常交流有什么本质区别，所以我个人觉得可能还是文字交流为主。

毕竟并非每一位用户都愿意开口发言，而且文字特别是加上那些表情包，它会有一些特殊魅力在那里，有很多人特别喜欢用这种方式去表达。

我个人觉得，目前看不出来语音就会取代文字，成为纯主流的一个方式，在某一些场景里面可能会，譬如在购物场景中的AI助手：智能助手的这种方式有可能就会成为语音独占的巨大入口。

但是像你刚才讲到的在游戏里面的这种互动的话，我个人觉得有可能还是文字居多；因为声音交流如果在一个大房间里面很多人一起开口就显得过于嘈杂。但是文字你就可以一下子看很多信息，从信息传播的角度来说还是文字最高效。

Q4:您比较看好的未来元宇宙场景是什么样的？

A4：

在元宇宙纯声音这一块的话，我个人观察我是觉得现在做的比较火，而且未来也是挺大需求点的就是社交音频的方向，对，包括我们荔枝自己在做、在探索的这个方向。

随着技术和设备的进化迭代，给声音配套场景，同时对声音进行定制化处理的玩法或将成为声音社交的新方向：比如在数字孪生的虚拟维也纳大厅里和朋友K歌聊天，在元宇宙的录音棚当中打造一张自己的数字唱片。

在「增强声音」的同时配合元宇宙丰富的视觉场景和深度交互，是我心中基于现状比较看好的一种未来想象。

结语：

采访的内容暂告一段落，通过这次机会让笔者对于音频技术的应用有了更深的理解，元宇宙的浪潮滚滚而来，谁能够抢先定义「增强声音」、打造更加沉浸的声音体验，荔枝或许会在不久的将来给出答案。

与沈老师的交流干货满满，相信也能为众多钻研互动社交的同行者带来启发~

本文来自作者投稿，如需转载，请注明出处：实时互动网https://www.nxrte.com/zixun/1639.html

专访荔枝音频负责人沈俊聪：看好“增强声音”在未来的前景

相关推荐

Ampere：2024 年美国流媒体收入将超过付费电视

谷歌会在 CCaaS(呼叫中心服务) 中发力吗？

脱虚向实，2023年数字人走向产业深处

ABC Fitness 收购 Replify，将 Agentic AI 引入健身运营

2021直播行业报告出炉，即构科技稳居头部技术服务商

Google Meet 中断影响全球数千名用户，现已恢复