加速迈入“真实时”物联网 RTC成智能设备“硬指标”

可视门铃、PetCam、无人机、机器人……物联网在加速发展和落地的过程中，发现实时音视频能力在场景互联互动中扮演着越来越重要的角色。或者说，实时音视频技术已经逐渐成为物联网领域不可或缺的底层能力建设。

音视频物联网已经来了吗？音视频物联网的场景应用有哪些？音视频物联网又蕴藏着哪些机会？……

在刚刚过去的 RTE 2022 第八届实时互联网大会上，声网 IoT 行业产品负责人侯云忆带来了题为《无远弗届⾳视频物联⽹的进与浸》的分享，为行业带来了一些全新的思考。
音视频物联网风口已来

从 2020 年开始，全球物联网设备已经连续 3 年超过移动互联网，中国的物联网设备更是突破百亿，且趋势不可逆。同时随着 5G 能力的普及，智能家居、3D 高清视频、AR/VR、自动驾驶等超高清、沉浸式的场景已是行业共识的发展趋势，这也是网络带宽、应急算力和数据密度等技术提升所带来的场景拐点。

另外，从连接和交互的视角来看，整个音视频物联网的演进可以分为三个阶段。

第一阶段，视听上云，解决的是信息连接和数据上云。数据在线化可以做到事后分析、回述、查看。以传统安防为代表的慢直播时代为例，其以 RTMP、RTSP 协议为主，通信时延在 2-5s 之间。

第二阶段，即时连接，这阶段是以传统的 P2P 穿透技术为主，可以做到及时或实时连接，时延在 1-2 秒。这个阶段可以及时预览和能听能看，但却是以单向为主，不能称之为真正的互动。

第三阶段，音视频设备的实时互动，它可以做到人和人、人和物的实时、多人、跨端等任意规模的互动，这也是真正 Internet of Things 技术。这其中，声网所引领的实时互动标准就把全球端到端时延控制在了 400ms 之内。

技术不断发展的同时，很多场景也开始落地。

其一，可视门锁成了爆品。在今年秋季发布会上，国内巨头华为和小米都分别重点推出了智能视频门锁，视频通话成了门锁的标配。相关数据也显示，视频通话在智能门锁领域的渗透率已经超过了 40%。尤其是今年华为秋季发布会上主打的分布式可视猫眼功能，用户可以在手机、智慧屏、画中画等任意终端进行随时查看，这说明智能门锁已经从过去的单品智能走向了生态平台，并在万物互联领域实践和落地。

其二，远程陪伴产品兴起。随着硬件感知能力的精细化演进，更多通用硬件平台开始围绕幼宠细分品类深耕，并针对用户的情感诉求开发新品。亚马逊 Astro 机器人就升级了宠物管家功能，并兼容智能视频门铃服务和语音交互，当主人不在家的时候，其可以作为宠物管家来记录宠物的日常，主人也可以远程实时地查看与对话。从单向的能看能听、到远程控制和互动，同样对技术需求和音视频体验有了新的技术高度要求。

其三，在 2B 产业场景中，机器人解决方案公司 Carbon Origins 宣布将在 CS 2022 展示送货机器人和 VR 远程监督的巡演方案，并已经开始招聘 VR 司机。它的方案是无人配送车操控人员可以佩戴 VR 眼镜进行沉浸式远程控制，当智能小车在AI不工作或者复杂路段时进行人工干预。

可以预见，音视频物联网风口已来，实时音视频已经成为智能硬件设备提升用户互动性的“标配”。

作为实时互动领域的引领者，在过去一年中，声网也与行业伙伴一起落地了诸多场景。第一类是经典 IPC 设备，用户体验通过实时音视频（RTC）技术得到增强。在同样的硬件设备下，更高质量和保障的音视频体验，不仅为设备服务带来升级，也能帮助品牌客户在硬件设备板块从价格厮杀走向了服务提升。

第二类是软件服务驱动用户黏性的细分场景，实时音视频服务帮助像婴儿、宠物、老人陪伴等产品实现了设备即服务的业务逻辑。

第三类是无处不在，随着视觉交互的成熟，摄像头让任何设备都被加上了“眼睛、耳朵”的功能。以某个头部扫地机器人为例，因设备增加了视频管家和双向语音能力，让其整体溢价 20%-30%。

除了消费品类外，在生产力变革中，实时音视频也在不断改变着工作方式和效能。如无人机厂商使用 RTC 直播，在应急消防救灾、农民电力巡检等场景中做到实时远程指挥和调度。在面向矿车、无人执勤等场景中，实时音视频不仅释放了生产力，也让人力和安全都得到了释放。

随着实时互动在物联网设备中的逐渐渗透，实时互动（RTE）和 IoT 的融合成为了有共识的未来赛道，在艾瑞发布《音视频行业白皮书》中，也首次出现了 IoT 行业解决方案的赛道。但正是由于物联网行业玩家较多，所以整个生态也存在着一定的割裂，场景分散依然是行业痛点。在物联网实时互动的标准上，声网加入了国内版的 Meta 开放智能联盟 OLA，并作为音视频小组发起方，积极推动音视频设备互联互通标准方案的落地。除此之外，声网还和信通院泰尔实验室联合建立了音视频评测标准，并且将智能硬件中门铃门锁场景作为创新品类推动评测标准。

“从体验来说，互动从过去的准实时走向真实时；从技术来说，过去只有音视频，现在可以做到更多媒体的沉浸式交互；从场景来说，消费物联网逐渐渗透到产业物联网，行业从面向连接走向面向服务。在2B端，从生产关系连接迈入了生产力的变革，整个产业格局上也从生态割裂到标准初现。”侯云忆表示。

场景升级

为全品类音视频设备打造高质量互动体验

针对行业的趋势变化，声网也在不断地升级 IoT 全景解决方案。面向穿戴、家居和出行等多个音视频设备品类，依托声网的 SD-RTN™ 大网，为智能硬件提供高可靠、低延时音视频流媒体和可靠信令消息能力，开发者可以使用声网 SDK 轻松实现视频通话、远程协作、远程控制、紧急呼叫等功能。

在面向消防安防和民用安防监控场景中，声网提供的实时互动能力，不仅可以满足监控类设备更快、更流畅地实现实时视频和语音双讲能力，还能为这类设备提供视频呼叫、告警消息和事件录制等能力。除了经典 IPC 之外，声网的 IoT 解决方案还覆盖了门铃、门锁、家庭服务机器人、扫地机器人等品类，也衍生到了社区楼宇对讲、电梯对讲等这类设备，能帮助这些场景的功能体验达到 99.9% 的高连通率，毫秒级的秒开出图，400ms 端到端时延和极低资源占用，能让 SDK 在侵入式设备中保持高性价比的体验，同时覆盖包括 WiFi 和 4G 设备的跨平台兼容和互通性，低延时的远程控制通道能力，让设备真正做到不止于看，还能够及时地操控和反馈。

面向车载终端，声网的 IoT 解决方案可以提供哨兵模式、自动泊车、语音播客功能；面向 B 端的无人车，提供远程监控、远程驾驶和语音客服功能。在能力迭代和技术高度上，该解决方案符合这类场景中更为关注的高清多路视频、超低延时远程监控、以及户外网络情况下是否可以提供更可靠以及抗弱网的能力，保障出行场景当中有流畅的互动体验。

在 XR 场景中，更多的是音视频对人、场景、物的重构，数据传输种类和同步数据形式也更加地丰富。虚拟空间中，通过音视频通讯、空间音频和结构化数据对虚拟人动作进行同步，实现在虚拟空间中的沉浸互动体验；全息投影场景下，通过点匀数据和深入信息多个视频流传输和融合，去实现全息影像还原，同时通过跨端交互，让 XR 设备和非 XR 设备做到互联互通。

技术升级

突破硬件、平台和技术的限制

围绕着以上这些典型场景，致力于更高效、更真实地还原互动体验，声网 IoT 解决方案做到了在硬件、平台和技术上的突破，并推出了灵隼物联网云平台。

声网灵隼物联网云平台是专门为音视频智能硬件一站式开放而生的一个端到端、低代码平台。该平台有三大优势：一是面向开发者提供更低开发门槛体验，覆盖从宽带流媒体到窄带消息全链路的连接；二是站在终端用户视角，提供更加流畅的视听体验，拥有小于1秒最快出图和行业领先的较低资源消耗，能够做到低时延、快出图；三是面向产业生态提供更加开放的环境，给上游芯片硬件和软件服务，以及方案集成商等上下游产业带来更多的空间。

硬件上，面向不同硬件应用场景，声网的 IoT 解决方案深度适配了不同的音视频芯片，围绕产品和平台不断拓展一体化的方案，帮助开发者降低集成门槛。如面向无人车、机器人场景，适配英伟达 Jetson 系列；和紫光展锐平台进行合作，面向儿童手表、功能机和可视穿戴，提供小包体、低功耗的解决方案；基于乐鑫 ESP32-S3 的合作视觉品类方案，可用在门铃门锁和低功耗视觉产品当中。

过去，硬件能力的上限决定了用户体验的上限，而成本和性能一直是技术层面需要突破的难题。以智能摄像头为例，声网的解决方案是在音频这一块提供嵌入式平台软 3A 能力，通过声网自研语音引擎自适应各类环境全面消除回声，提供超一流的双讲表现，可以在不损失音质的情况下消除各类噪音，最大程度保障音频质量。嵌入式算法方案也能够兼容相对广泛的平台，并保持极低的资源占用。

在视频方面，超分效果和自适应能力优于传统算法。客户端可以采用声网自研深度学习的超分算法，做到 1.5 倍、2 倍和 3 倍移动端的实时超分。在不增加任何硬件和语音端资源成本的前提下，不仅可以提升用户体验，还能通过软件和端云协同算法组合，帮助开发者带来更多场景的优异体验和丰富的玩法。

事实上，声网目前已经是一个在 RTC 领域覆盖终端和场景最全的行业玩家，在 IoT 赛道发展过程中，也在不断地打破平台的限制，做到真正跨终端、跨平台的全面互通和万物互联。从主流的 Android 系统到 Linux 系统，甚至像 Harmony、FreeRTOS、AilOS 等小平台都做了全面覆盖和深度适配。今年声网也丰富了设备以及不同媒体形式和 Native、Web、小程序的互通。以海外智能音响为例，通过 Web RTC 开放协议支持，落地了 amazon alexa 和 Google assistant 的互通，帮助出海和海外用户能够在智能家居场景当中，轻松和声网设备互联，这个解决方案也适用于拓展任意标准 Web RTC 的开放平台。

此外，在面向以无人车、机器人为代表一些智能设备远程运维、人工接管和远程控制场景，声网推出超低延时平行驾驶和平行控制方案。针对于同城远程控制，声网解决方案通过标记优先级优化路由调度策略和同节点转化方式，保障该场景下的延时传输质量。同时还结合了多运营商物联网卡场景下，通过 Multipath 多路径融合的技术，保证网络质量的可用性和弱网对抗能力。实测数据显示，从无人驾驶车辆摄像头画面采集，到远程控制台显示，声网能做实时音视频端到端时延最低百毫秒内，5G 公网平均 160ms；可靠信令可以做到端到端 25ms 之内，5G 公网平均 50ms，可以保障低速自动驾驶车辆在 30 公里时速下，拥有相对可靠、安全和高效沉浸式的体验，来完成所有的远程作业。