视频彩铃：让通话前的“视”界焕然一新

写在前面：2022卡塔尔世界杯期间，中国移动视频彩铃首次推出一系列足球场景的视频彩铃特色内容，通过3D场景建模、实时渲染、HDR、仿真光源、光线追踪等技术，为用户带来极具冲击力的感官体验，让通话接通前的“视”界焕然一新。

视频彩铃背景

从最早的手机自带默认铃声，拨出电话后听到的是嘟~嘟~嘟~ ，后来拨出电话后听到的是传遍大街小巷的个性流行音乐，彩铃似乎融入我们的生活，成为可以表达我们心声的“音乐名片”。

当前彩铃已经升级发展到了视频时代，从”听”进化到”看”的升级。2018年，中国移动率先推出5G创新应用——视频彩铃。当主叫终端支持并开通了VoLTE功能，拨打视频彩铃用户电话时将看到对方设置的有趣短视频，这是彩铃业务在5G时代的突破，“短视频”通话社交的新篇章。中国移动视频彩铃经过4年的发展，截至2022年12月，视频彩铃用户规模超3亿，支持终端5.8亿，月播放次数超180亿次。为了更好地服务业务和创新，我们自研了全球首个运营商全自主产权视频彩铃呼叫与媒体控制系统（nemo_RBT_AS）。下面我们就介绍一下相关的关键技术。

图1 网络流程

视频彩铃技术

整体设计

nemo_RBT_AS系统在设计之初就坚持IT、CT技术融合的原则，上层应用以微服务的方式搭建，支持灵活扩展；底层能力全部原子化、弹性化，并适配网络功能虚拟化（NFV）控制面-管理面（C-U）分离架构，改变了原有彩铃厂家软件能力和硬件绑定，上层应用和底层基础能力紧耦合落后模式。为后续产品的功能创新、媒体化场景创新打造基石。同时，完成了视频彩铃上层内容编辑、制作、转码、分发、展示、管理等全套平台自主研发，涵盖了自用户触点到核心网信令协商和流媒体播放的端到端跨域能力。

基于5G网络，参照虚拟化C-U分离架构，整个系统分为四类网元：管理网关节点、呼叫信令面节点、呼叫媒体面节点、操作维护中心（OMC系统）。其中视频彩铃网关和呼叫自研系统具备音视频彩铃融合放音能力、用户彩铃订购信息管理能力，并且支持中国移动视频彩铃业务所要求的所有功能。系统可以应用于全国其中同样架构多个省的彩铃平台建设和扩容。这种构架满足资源适用性强，X86、虚拟化资源池均可适配。

基于前面介绍的设计理念，咪咕视频彩铃实验室基于此架构对底层信令控制和媒体协商模块进行了研究与优化，升级主叫、被叫媒体协商过程，并衍生出新的应用场景。此外，针对5G新空口（5G VoNR）场景下超高清视频彩铃业务进行相关测试、验证，促进未来超高清视频彩铃业务发展。为了解决原有用户骚扰、内容与用户喜好不匹配、投放覆盖不全的问题，咪咕公司首创了一种基于用户标签、通信行为、社交关系的语音域的播控放音模型，并成功引入当前视频彩铃媒体投放场景中，通过流式计数、动态策略收敛等方式，实现了巨量高并发下的视频彩铃媒体投放实时播控能力。下面就给大家具体介绍下相关的技术及其应用。

信令控制和媒体协商

主被叫通话相互间协商过程可以拆解为主叫到平台、被叫到平台的两个背对背协商过程。4G网络时代，视频彩铃主要是面向被叫用户协商过程，即被叫用户设置好彩铃，当主叫用户给被叫用户拨打电话，主叫用户可以看到被叫设置的视频彩铃内容。咪咕视频彩铃实验室对此进行了深度研究，引入了主叫用户协商过程，并且升级后的主被叫媒体协商过程间相互独立，可以分别向主被叫用户单独推流，也可以同时向主被叫用户同时推流。衍生出各类的应用场景包括，视频彩振，主叫名片等创新业务。

图2 信令控制与媒体协商

此外，还可以识别多种主被叫非空闲状态（如：被叫忙、被叫停机、主叫停机等），网络带宽，终端能力（接入带宽、终端音视频能力），通过决策算法，在彩铃平台逻辑策略控制下，可以构建视频彩铃业务能力多种灵活组合，丰富视频彩铃的业务形态。

双向同时推流

基于和主被叫同时进行资源预留，并协商同时推流的过程，我们将此技术应用于视频彩振场景。首先，基于主叫发出的初始邀请（INVITE）消息，被叫IP多媒体子系统（IMS）域的彩铃应用服务器（彩铃AS）收到INVITE消息，彩铃AS透传主被叫消息，完成主被叫资源预留。其次，被叫返回振铃（180）消息，到达被叫归属IMS域彩铃AS。被叫终端返回180消息后，需设置定时器，当超时未收到彩铃平台的彩振媒体协商更新（Update）消息时，则播放本地振铃。彩铃AS读取该用户彩振功能配置，并判断会话进行（183）消息是否携带相关参数，如果都满足，则向被叫域发起视频彩振媒体更新请求。彩铃AS根据被叫应答的媒体能力播放视频彩振或不播放视频彩振。被叫域彩铃AS与主叫终端进行媒体资源协商，根据协商结果播放彩铃。

图3 视频彩振场景图

非空闲态协商

面向被叫7种主被叫非空闲态：被叫为空号、被叫关机、被叫不可及、被叫忙（无呼叫等待业务）、被叫忙（呼叫等待）、被叫停机、主叫停机场景下，为主叫用户播放异常情景视频彩铃提示音。彩铃平台主要通过对被叫域电话应用服务器（TAS）返回的携带原因值的头域信息进行判断，先完成与被叫侧交互释放的过程，然后向主叫发起音视频协商的过程，彩铃平台确认媒体协商成功后，则播放相应的情景视频彩铃。

图4 情景彩铃场景图

双向单独推流

和双向同时推流有所不同，是由主叫域彩铃服务器给被叫推流、被叫域彩铃服务器给主叫推流的方式，一般应用于主叫名片场景，该场景下被叫能够看到由主叫域彩铃服务器播放的彩铃。首先，归属用户服务器（简称HSS）需要新增主叫名片在IMS的签约信息，主叫域呼叫会话控制服务器（简称S-CSCF）支持当用户签约了主叫名片时，将呼叫触发至主叫名片彩铃服务器。其次，IMS核心网支持本网和异网间视频彩振业务标签的传送管控功能（本网透传、网间拦截），另外IMS核心网需确保彩振标签可以从主叫域主叫名片彩铃服务器传递到被叫终端，以及从被叫终端传递到主叫域主叫名片彩铃服务器，SIP信令消息流经的本网内除彩铃服务器外的其他网元均不对其进行删除。

此技术运用于主叫名片类业务居多，与当前被叫用户设置，主叫用户观看场景不同，主叫名片业务是由主叫用户设置，在被叫摘机前由视频彩铃平台向被叫用户推送流媒体作为视频振铃的业务。主打快递、各企业外服部等对外身份表明及公司产品及形象宣传。

随着5G时代开启了超高清视频彩铃新局面，更高网络带宽和超高清视频彩铃业务体验需求日渐旺盛，旨在大幅度提升视频彩铃用户体验，借力5G时代提升的网络资源，构建未来满足更多场景下的视频彩铃服务，针对5G VoNR场景下超高清视频彩铃业务进行相关测试、验证，促进未来超高清视频彩铃业务发展。

在5G VoNR网络环境下，分场景在重载小区、小区边缘、弱覆盖、高干扰、普通小区等无线环境下，对分辨率为720*1280（720P）、1080*1920（1080P）、1080*2040（2K）的超清视频彩铃媒体片源进行功能和分场景测试；终端在基于语音通话的专用承载下按照3M、4M、5M、6M、8M、10M、15M、18M进行视频媒体资源申请，利用主观评分和丢包率指标量化超清视频彩铃播放效果，验证终端、无线、5GC、IMS核心网、视频彩铃平台对超清视频彩铃具体码率最优支持情况。

图6 超高清自适应架构图

5G视频彩铃技术验证情况：在符合5G VoNR小区边缘保障速率规划的前提下，4.5~5.0Mbps作为超高清视频彩铃无线保障带宽参考依据，可支持1080p、2K超高清内容流畅播放，相比于4G网络下的视频彩铃，能够实现用户体验提升的全面突破。

图7 不同网络状态下的主观平均分

图8 不同分辨率下的主观平均分

支持基于用户成长体系和社交关系的放音模型

厂商传统放音逻辑是基于彩铃平台的呼叫节点中的用户固定铃音设置。这种传统技术模式，无法适应当前视频彩铃媒体化发展的市场需要。咪咕视频彩铃实验室参考广电网、互联网内容投放和播控模式，首创了一种基于用户标签、通信行为、社交关系的语音域的播控放音模型，并成功引入当前视频彩铃媒体投放场景中，从根本上解决了原有用户骚扰、内容与用户喜好不匹配、投放覆盖不全的问题。在构架设计上，通过流式计数、动态策略收敛等方式，实现了巨量高并发下的视频彩铃媒体投放实时播控能力。

标准方面

2020年，咪咕公司推动全球首个视频彩铃终端行业标准通过中国通信标准化协会（CCSA）全会立项，2021年，由咪咕公司主导的首个视频彩铃ITU-T国际标准成功立项。

CCSA行标

咪咕公司主导的《移动智能终端支持视频彩铃的技术要求和测试方法》行业标准正式通过全会评审并成功立项，这是自2018年中国移动视频彩铃业务在全球范围率先上线之后，业界迎来的首个终端技术行业标准，本标准规定了移动智能终端支持视频彩铃业务的技术要求，包括支持视频彩铃业务开展所需的终端功能要求、业务功能要求、人机界面要求等，并提出针对以上技术要求的功能测试方法和体验测试方法。本标准的制定，旨在统一移动智能终端支持视频彩铃业务的技术要求，降低终端、芯片开发和适配工作复杂度，推动我国视频彩铃业务持续、健康发展。通过本标准，一方面能够指导终端、芯片等厂商，开发符合视频彩铃业务开展要求的移动智能终端，另一方面也便于产业相关各方开展对支持视频彩铃业务的终端的测试、验收和入网等操作。

ITU国际标准

咪咕公司主导，携手华为、北邮共同提出的首个视频彩铃领域ITU-T国际标准《Requirements and application scenarios for IMS Early Media and extension Services》立项建议获得通过。本标准主要聚焦IMS早媒体及扩展业务（包括视频彩铃及扩展业务）的应用场景，包括接续期彩铃、振铃期彩铃（彩铃、振铃、彩振合一）、情景彩铃、彩铃互动等以及该业务对网络演进、终端、安全及其他方面的要求，旨在支持早媒体及扩展业务（EMES）在全球范围内的传播，以及用户通过服务中播放的短视频访问文化内容的非歧视性。本标准的制定，弥补了3GPP视频彩铃标准中对交互式技术、UI显示、终端要求的不足，规范了早媒体及扩展业务的技术要求和应用场景，为后续推进视频彩铃的平台、网络、终端、内容制作、质量评测等ITU-T系列标准的立项和研制打下了基础。借助统一标准，有利于建立产业链良好的业务与技术合作框架，降低合作对接门槛，促进中国移动领先的数字文化技术的交流与输出，推动视频彩铃标准出海，实现全球视频彩铃产业的共同发展与繁荣。

视频彩铃应用

纵观彩铃的发展过程，我们可以看到，网络和技术的改变能带来很多新的产业机会和巨大的产业变革，彩铃也因此为运营商缔造了流量神话。最初业界并未想象彩铃业务能够发展起来，但随着越来越多音乐因为彩铃而成为爆款，音乐人的收入也随之水涨船高，譬如爱音乐无线首发的《小苹果》，一上线就收获了过亿次的点击下载，成为彩铃时代的销售冠军。

其实爆火的背后是有用户的真实需求的，因为彩铃不仅能缓解等待电话接通的无聊感，某种程度上也代表了接听人对生活的理解，体现其自身的品位及人生态度，因而可以说从根本上改变了音乐发行的格局。凭借全国千万量级的彩铃用户，原本只有10个亿左右产值的中国音乐行业，一跃做到约百亿水平。那些被盗版环境挤压、难以通过售卖实体唱片盈利的唱片公司，也开始有意识地选择和运营商展开合作，音乐发行产业随即打开了新的格局。

当前已经开启了视频彩铃的时代，视频彩铃市场的发展已初露锋芒，2022年用户规模已达到3.6亿，产值规模超100亿。当前中国移动的视频彩铃用户渗透率约占20%~30%，目前是新的短视频生态入口，因此市场前景很广，房地产、金融、教育、医疗、游戏、影视等众多行业皆可适用。

视频彩铃出现以来，开启了短视频通话社交的新篇章。为构建规模化融媒宣发尝效应，中国移动于2019年牵头成立5G+视频彩铃产业联盟，联盟已经囊括了视频彩铃产业链的上下游主体，成员之间长短互补，集合了流量优势、技术优势、内容优势、产品优势等。联合联盟成员不断完善视频彩铃产品、内容、终端及标准能力，打造元宇宙沉浸式媒介入口，逐步构建出高清视频彩铃、情景视频彩铃、视频彩振等形态丰富的产品功能体系，覆盖政企、家庭、公益媒体等细分领域，已成为政务党建、公益传播、城市推介、乡村振兴等领域的重要融媒体宣发平台之一。

在今年的第十届网络视听大会上，联盟成员实现大扩容，视频彩铃大爆发的产业前景和变现机会，于互联网大厂而言，是外部牵引力——投身其中，即可分享发展红利。根据中国移动发布的视频彩铃生态合作“燚”计划，叠加“平台保底+内容分成”多重商务模式，有望达到10亿级变现规模，收益增量明确可期，助攻互联网平台达成营收双增目标。从更宏观的产业升级维度来看，视频彩铃业务，可以延长内容产业价值链条，比如补充音视频行业变现短板。实现从“业态”到“生态”的模式跃进，从同质内卷到共谋增量的路径升级，从“一枝独秀”到“行业共赢”的价值重构。

图9 第十届网络视听大会现场

我们的创新尝试

中国移动视频彩铃不断拓展内容传播场景，打通了科技与内容的双向赋能，打通了优质内容生产、传播与场景化交互的新路径，如创新推出“N#”互动玩法，撬动视频彩铃在通话场景的传播力，配合热门电影IP宣发、票务商品销售等，开拓了全新场景的沉浸式互动入口。

图10 视频彩铃产业应用

在卡塔尔世界杯期间，中国移动围绕视频彩铃内容矩阵下足了功夫。其一，视频彩铃应用设置了相约卡塔尔和玩赚世界杯两大栏目，让用户在使用的过程中能够迅速找到世界杯热点素材，提供便捷的视频彩铃设置服务。其二，打造大V矩阵。中国移动邀请了众多体育明星及大咖入驻视频彩铃号，分享精彩内容。

图11 视频彩铃创新应用

中国移动裸眼3D视频彩铃，通过3D场景建模、实时渲染、HDR环境、仿真光源、光线追踪等技术，实现超高分辨率、超高清、超真实三维立体感的沉浸式交互观感。足球从三维立体的超高清“视”界中凌空跃起，瞬间“破屏而出”。这是中国移动裸眼3D视频彩铃带给用户的视觉体验，旨在让用户近距离感受足球魅力，仿佛置身赛场，见证热血一刻在眼前上演。

中国移动5G视频彩铃紧扣“足球”这一内容场景，推出了丰富有趣的世界杯视频彩铃主题活动，支持视频彩振、情景彩铃、主叫名片等多种创新能力，手机一屏看尽赛事高能精彩，来电互动让世界杯更好玩。用户可以打造个人专属的世界杯名片，这也是中国移动视频彩铃5G时代在内容与体验上的又一次创新升级。

图13 视频彩铃世界杯专属名片

视频彩铃展望

面临的挑战

梦回2000年，耳边响起《两只蝴蝶》的音乐，举着翻盖手机的少年染着五颜六色的头发从时间长河里走来……可以说，彩铃的发展，既凝聚了ICT产业的发展进程，某种意义上也是互联网内容产业的商业化缩影。彩铃在5G时代还能续写之前的辉煌吗？首先要问我们还需要彩铃吗？抖音、YouTube等平台的走红，以及偶像爱豆来电等营销玩法的兴起，说明个性化表达与富媒体内容依然是智能终端用户的刚需。彩铃还能为内容产业带来价值吗？彩铃的商业化规模对原创音乐有着极大的刺激作用，为视频内容创作者增加实现价值的渠道。但是当前的视频彩铃也面临着挑战。比如互联网的发展，曾经作为社交互动首选的通话业务面临着很多竞争，随着移动网络的丰富、IoT智能终端的出现，有越来越多的介质可以承载这一需求，因此通话和视频彩铃都需要突破自身，拥抱变化。

发展和机遇

首先，5G视频彩铃基于运营商庞大的用户基础，让人人成为行走的广告屏，有品牌营销的巨大价值，我们将进一步依托5G技术优势，继续持续优化当前的3D视频彩铃，让手机屏幕成为政企及个人宣传的全新流量入口，打造更多出圈的“高光时刻”。

其次，随着移动网络的发展，作为通信基础能力的通话业务也将面临升级。5G新通话是运营商的一种新通话概念的尝试，虽然名称是通话，但实际上不仅仅局限于通话，更是实时沉浸式互动。5G新通话极大拓展了传统实时音视频通信的内涵。在业务能力上，打破了传统音视频媒体流限制，升级成名副其实的多媒体通信；在用户体验上，打破了听觉和视觉的限制，增加触觉等交互式和三维沉浸式的新体验；在沟通范围上，打破了原有人与人的限制，拓展到人与物、物与物之间的沟通。而作为通话前的核心业务彩铃，自然也会迎来升级，突破当前视觉和听觉呈现和互动方式，必然面向未来的元宇宙的沉浸感和互动方向发展。

最近ChatGPT给我们带来了巨大的惊喜，然而这只是AIGC的一个成功应用，只是AI能力圈的冰山一隅。面向未来的视频彩铃内容创作，离不开AIGC提供工具支持。AIGC 是人工智能生成内容（Artificial Intelligence Generated Content）的缩写，指的是利用人工智能技术，如生成式对抗网络（GAN）、大型语言模型（GPT）等，自动或半自动地生成图像、文本、音频、视频等内容的过程。一方面可以大大提高复杂内容的生产效率，另一方面还能降低创作的技术门槛。例如可以通过文字描述、标签、图片生成短视频内容，大大提升短视频的生产效率；还可以通过一张图片就能生成 1 个数字人，从数字人的3D建模到面部身体绑定，到模型驱动都可以通过AI完成，还可以通过文本或者动捕驱动让数字人动起来，而这些数字人可以作为通话助手或用户的比特分身应用到通话业务中，助力视频彩铃面向元宇宙交互场景的升级。

作者：吴新新崔兴宇张秋芬冯生浩毕蕾

审核：单华琦

【参考文献】

[1] 李琳孙井权等.《视频彩铃播放方法、系统、服务器、网络设备和存储介质》[P].中国专利，CN202011549254.0，2020-12

[2] 张秋芬等.《虚拟化彩铃平台的业务处理方法、装置、系统及存储介质》[P].中国专利，CN202210353398.1，2022-04

[3] 张秋芬等.《一种实现5G超高清视频彩铃的方法及视频彩铃系统》[P].中国专利，CN202210650028.4，2022-06

[4] 新浪看点.《中国移动震撼发布数智人裸眼3D大片引爆世界杯元宇宙玩法》[OL] .新浪

[5] 腾讯网.《世界杯遇上短视频浪潮，中国移动视频彩铃如何破局？》[OL] .腾讯