云渲染任务智能算力调度策略研究

摘要：近年来中国云渲染需求呈爆发态势，然而大量社会算力仍未得到充分利用。针对以上问题，提出基于算力网络的云渲染任务智能算力调度策略，充分调度各类算力资源，运行云渲染任务。该调度策略既满足了云渲染的资源需求，又提升了现有数据中心的资源利用率。

引言

在国家文化产业振兴的大背景下，中国的渲染产业已经开始呈现爆发式增长，传统独立单一的“云渲染”平台已经远远无法满足市场需求，然而当前海量的社会算力仍未得到有效利用。因此本文探索一种基于算力网络的云渲染任务智能算力调度策略，面对不同场景下的海量渲染需求，设计算网大脑将云渲染任务调度至符合渲染需求的算力节点，将各类物理空间、逻辑空间、异构空间上的多样性算力作为计算能力，统一调度对外服务，构建“无限渲染节点”，赋能影视行业，助力影视渲染产业的发展。

01 云渲染现状

1.1 云渲染应用场景广泛

渲染主要是指在特效制作中用软件从模型生成图像的过程，是指在电脑中使用三维制作软件（Maya、3ds Max、Blender等）将制作的模型经过纹理、绑定、动画、灯光等，通过渲染得到模型和动画的最终显示效果。当前渲染技术被应用于多个领域：室内设计、建筑设计和房地产行业的家装效果图；影视特效、广告制作和游戏制作的3D动画电影制作领域；医疗行业中用于复杂手术和医疗程序的医疗设备、修复受损器官部件等领域。而云渲染是基于云服务器针对渲染行业提出的应用解决方案，在云服务器上执行渲染任务能充分发挥云服务器的优势，帮助本地解决渲染问题。

随着渲染领域的逐渐扩大，社会层面出现了越来越多的渲染需求。随着云服务的逐渐普及，云渲染逐渐成为渲染领域的主要渲染方式。同时，云渲染也对算力相关基础设施提出了更高的要求。

a）3D渲染对硬件设施的性能和指令的响应速度要求更高。比如当今的3D游戏，为了获得高清渲染图像和保证游戏的流畅运行，要求服务器的硬件性能是普通云计算硬件性能的数倍乃至数十倍，需要更加庞大的云渲染服务器集群。

b）从人眼感觉画面流畅的角度分析，3D渲染的fps需要达到30 Hz，由于未来游戏普遍要达到1 920 ×1 080的分辨率，传输码率要达到10 Mbit/s，这就对渲染基础设施提出较高要求。

1.2 云渲染算力需求高

从渲染行业的发展现状来看，渲染需求量在变大，不管是离线渲染还是实时渲染，分辨率从2K、3K发展到4K、6K，高分辨率逐渐成为主流，对云渲染算力的需求量也越来越大。当前仅靠单一的渲染资源池算力已无法支撑，而自建数据中心的投入是很多企业无法承受的。

大型动画渲染一般需要200台以上专业服务器同时渲染才能保证渲染时长。结合实际渲染场景，利用云服务器进行渲染测试，渲染测试素材信息如表1所示。

表1 渲染测试素材信息

服务器 CPU 的配置为 8核 32 G 内存，主频为 2.6GHz，GPU配置1块T4显卡。本次测试过程中，对包含240帧的素材随机选取其中24帧进行渲染，统计渲染24帧需要使用的时间，测试结果如表2所示。

表2 渲染测试结果信息

电影放映的标准是每秒 24帧，本次使用单张 T4显卡进行测试时，需要5.52 h才能完成1 s的影视动画渲染。渲染过程中，显卡使用率达到100%，已充分释放算力。一部电影的时长通常在2 h左右，完成渲染大约需要95万h，由此可见，百台以下的服务器算力根本无法满足影视渲染的需求。在动画电影领域，国产动画电影《小门神》共有1 940个镜头，制作时长达29个月。在最后四个半月的渲染高峰期，该电影在阿里云上同时使用了2 000多台服务器。《阿凡达》在渲染处理工作中采用HP BL2×220c刀片服务器，使用处理器多达4万个，每天要处理1万多个任务，每秒要处理近8 GB的数据。而特效规模高出《阿凡达》3倍的《阿丽塔·战斗天使》总计用了4.32亿h的渲染时长。

02 社会算力现状

2.1 社会算力充足

算力就是计算力，是数据的处理能力。在当前庞杂的数据背景下，社会算力的承载者有服务器、PC和手机终端等设备，其中服务器占主导地位。随着全国一体化大数据中心、新型数据中心等政策文件的出台以及国家“东数西算”工程的实施，京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏已启动建设国家算力枢纽节点，并规划了芜湖、韶关、天府、重庆、和林格尔、庆阳、贵安、中卫等10个国家数据中心集群。

根据信通院《数据中心白皮书（2022）》统计，近年来，我国数据中心机架规模稳步增长，按照标准机架2.5 kW统计，截至2021年年底，我国在用数据中心机架规模达到 520 万架，近 5 年年均复合增长率超过30%。其中，大型以上数据中心机架规模增长更为迅速，按照标准机架2.5 kW统计，机架规模420万架，占比达到80%。我国数据中心机架规模如图1所示。

图1 我国数据中心机架规模

2.2 资源利用率不高

尽管当前社会算力充足，但是资源利用率并不高，未能完全发挥算力价值。2014年11月，由中国研制的“天河二号”超级计算机在第44届世界超级计算机500强排行榜中位居榜首，但当时中国的超级计算机还仅仅用于科研、军事等少数几个领域，使用效率不高。“天河一号”超级计算机落户长沙后闲置近一年， “天河二号”超级计算机试运行后，截至2015年4月共服务了全球范围内的 120 家客户，使用率仅为34%。

从2014到2017年，全球PC保有量为11.01亿，但只有20%的利用率，即约2.4亿台PC处于闲置状态。服务器保有量为4 907万台，也存在大量的闲置服务器。

在传统广域网中采用的路径调度算法很少会根据业务适配网络的差异化特性（如时延、抖动、可靠性等），且未考虑云池的差异化特性（如算力负载、成本、存储等），这样会造成云端资源的利用效率低，无法高效地调度算力资源。广域网传统调度模式如图 2所示。

图2 广域网传统调度模式

根据IDC统计显示，数据中心、物理服务器、PC以及消费端等各类平台中，计算资源的利用率都低于15%，而各个行业的算力需求却在快速增加。最终形成了社会算力充足，但渲染算力短缺的局面。

03 云渲染体系架构

3.1 总体架构

传统的渲染场景中需要用户指定渲染平台，在该平台选择资源空闲的渲染节点，上传场景工程，配置渲染参数，再由渲染平台进行渲染。当渲染节点数量有限时，用户尚可在有限的范围内选择合适的渲染节点，但是在“无限渲染节点”的泛在计算环境中，这种模式不够友好，数量庞大的渲染节点、差异化的算力服务、不同的计量方式阻碍业务发展。渲染体系中需要一个能够向下纳管社会闲散算力，向上对接渲染全业务支撑的“算网大脑”，由算网大脑为客户智能调度分配合适的渲染算力，为用户提供随取随用的、透明无感的使用体验。例如在离线渲染方面，基于算力网络，将东部影视行业的渲染任务调度至西部低成本算力中心执行，提升渲染效率，降低渲染成本；在实时渲染方面，基于算力网络，将实时交互类渲染任务调度至离用户最近的边缘节点进行计算渲染，实时推送到终端，实现跨终端、可交互、沉浸式的访问。

算力网络云渲染体系总体架构从逻辑上分为软件层、平台层、调度层和基础设施层，如图3所示。

图3 算网云渲染体系总体架构图

3.2 分层架构

3.2.1 软件层

软件层为各行业提供渲染服务，提供适用于各种渲染场景的优化解决方案，支持主流渲染软件，如Maya、3ds Max、Houdini、Cinema 4D、Unreal、V-Ray、CAD等。为用户提供可视化页面和接口，用户根据使用场景一键提交渲染任务。

3.2.2 平台层

渲染云平台层管理和配置渲染服务、计量服务，是算力网络云渲染服务中算网大脑的任务层。向上提供支持自动化配置主流渲染软件和配套插件，提供智能解析工程文件服务，向下支持渲染任务与平台层对接，支撑算力多元化服务。

构建可信算网服务统一交易和运营平台，融合供给数智服务，通过提供基于“任务式”量纲的新服务模式，让应用在无须感知算力和网络的前提下实现对算力和网络等服务的灵活使用，为用户带来智能无感的极致体验。

3.2.3 调度层

调度层提供算网大脑的算力编排、调度、能力封装、统一管理能力。通过将算力涉及的硬件、软件等进行封装，实现算力的一体化服务供给。基于渲染任务所需的软硬件需求、网络需求等，提供算力调度服务，实现对算网资源的统一管理、统一编排、智能调度和全局优化，提升算力网络资源效能。通过将算力灵活组合，结合人工智能技术，为每个任务提供最符合需求的算网资源。

3.2.4 基础设施层

基础设施层是算力网络云渲染服务的坚实底座，以算为中心，构筑云边端立体泛在的算力体系。基础设施层将融合3类算力：一是物理空间上的算力，将跨区域建设的算力枢纽，以及区域内多层次的算力资源进行融合，满足不同区域、不同层级的算力资源；二是逻辑空间上的算力，将中心云、边缘计算以及端算力进行融合，满足低时延、数据不出园区等业务需求；三是异构空间上的算力，将多样化的异构算力进行融合，统一纳管 X86、ARM 等芯片结构，对外统一提供CPU、GPU、FPGA等多样性算力。

04 智能算力调度策略

4.1 算网大脑

为实现渲染算力的随需使用，为用户带来智能无感的使用体验，需要对计算、网络、AI等多种能力进行灵活组合，从传统简单的云网组合服务向多要素深度融合的一体化服务演变，将渲染服务模式从“资源式”转变为“任务式”，其中关键的一点就是构筑“算网大脑”。算网大脑可在平台层实现任务调度，统筹设置任务优先级；在调度层实现资源调度，将具体任务调度至最符合用户需求的算力节点，充分发挥基础设施多样性算力融合的优势。

传统云计算模式下的渲染服务，用户需要自行选择云厂商，购置云资源，自行部署渲染应用；或者选择云渲染服务提供商，并选择具体需要的服务类型。面对越来越多的渲染算力需求，用户需要承担的工作也越来越多。当渲染云服务构建起云边端泛在的算力体系后，底层算力服务已经开始进行多样性算力的融通，已经无需再延续手动选择渲染节点的服务模式了。

算网大脑可对底层异构算力和网络进行统一编排和全局优化。向下实现算网服务全领域拉通，向上实现算网融合类全业务支撑，融合AI、大数据等技术，实现算力统一编排、调度、管理、运维。云渲染管理平台接收到渲染任务后，通过算网大脑进行“算、网、站址”等多向量的调度编排，并将任务分配给各个渲染节点，各节点完成渲染任务后再将结果返回到云渲染管理平台，实现算随需流。算网大脑功能示意如图4所示，算网大脑相关能力可实现算网原子能力的进一步精细化管理、自由组合和灵活调度，提升业务的敏捷性和智能化水平。

图4 算网大脑功能示意

算网大脑在渲染任务的生命周期中，对渲染算力的调度可分为2个部分：任务调度和资源调度。任务调度是指将渲染任务解析并重新分配的过程，资源调度是指将渲染任务实际调度至算力资源池进行处理的过程。

4.2 任务调度

面对多个用户提交的海量渲染任务，平台层的任务调度本质是解析任务、设置任务优先级以及重新分配任务的过程。用户在渲染软件上提交渲染任务后，通过任务调度模块将各用户属性以及需求信息映射到渲染任务中。举个例子，如图5所示，用户A、B、C同时提交了渲染任务，均需要30个节点进行渲染，但此时资源池中只有60个空闲节点，因此任务调度模块需要综合用户信息、素材大小、渲染时长等因素，将用户属性转化为任务属性，重新分配优先级。给用户A提交的渲染任务分配30个节点并发处理，给用户B提交的渲染任务分配20个节点并发处理，给用户C提交的渲染任务分配10个节点并发处理。

图5 任务调度功能示意

影响任务设置优先级属性的因素有很多，例如从渲染任务到调用各计算节点的时间不尽相同，能够快速拉起计算节点也是在资源分配过程中需要考量的因素。本文提出一种混合群智能优化算法，用来计算寻找调用节点的最短时间，促进资源分配达到最优平衡。

本文提出的混合群智能优化算法由2个经典算法组成：蚁群算法和遗传算法。蚁群算法是针对具体任务设置多只蚂蚁并行搜索分配方案，每只蚂蚁完成搜索后，在路径上标识信息素，信息素量与解的质量成正比。每条路径上的信息素量越大，蚂蚁选择该路径的概率也越大，当达到预定的迭代次数或出现停滞现象（所有蚂蚁都选择同样的路径，解不再变化）时，算法结束，以当前的最优解作为问题的最优解。遗传算法则是首先进行编码，将候选解用染色体表示，实现解空间向编码空间的映射过程。本文对上一步蚁群算法的最优解进行二进制编码，用0和1组成的数字串模拟染色体；再将种群初始化，将编码集合为一个初始群体；然后进行进化计算，通过选择、交叉、变异，产生出代表新的解集的群体；最后解码，末代种群中的最优个体经过解码实现从编码空间向解空间的映射，将结果作为问题的近似最优解。对蚁群算法的收敛分析如图6所示。

图6 蚁群算法收敛分析

从图6中可以看出，蚁群优化算法会很快收敛到首次的最优解（图6中圆圈处，即在较短的时间内完成任务的解析分配），并且在Р点之后的迭代几乎不再产生优化。

在得到蚁群优化算法P点附近的优化结果后，利用优化结果生成下一阶段遗传算法的初始种群。在遗传算法演进过程中，首先对初始种群进行编码，然后同时采用交叉和变异2种遗传算子进行种群进化，直到得到了混合群智能优化算法的最终优化结果，具体流程如图7所示。

图7 遗传算法演进流程

4.3 资源调度

渲染任务经过任务调度模块的处理转发已经去除了用户属性，接着由资源调度模块分配实际算力进行渲染处理。资源调度向下对接基础设施层面，而基础设施层由多种数据中心算力构成，如何充分发挥多样算力的特性、融合各类算力之间的差异、提高综合资源的有效利用率，是资源调度需要解决的问题。

各类算力均有各自不同的特点。在物理空间上，融合了东西部数据中心，西部算力由于地价、电费等因素，综合成本较低，可以用来处理费用敏感型的渲染任务；在逻辑空间上，融合了云边端的算力，边端算力由于在地域上更靠近用户侧，可以用来处理时延敏感型的渲染任务；在异构空间上，融合了超算、智算数据中心的算力，在硬件上具备CPU处理以及GPU处理等能力，因此对渲染精度要求高的任务可以调用CPU处理，对渲染精度要求较低但是对渲染时效要求高的任务可以调用GPU处理。资源调度功能示意如图8所示。

图8 资源调度功能示意

资源调度的结果是通过拉起或者释放算力来执行的，过程中转换次数越多，消耗的时间成本越大，因此需要考虑当前算力是否能连续使用。针对这些问题，可采用基于负载均衡和最小完成时间的混合优化算法解决，在优化算力利用率和能耗问题的同时，也对时间成本问题进行了优化。

本文利用混合优化算法，将粒子群算法与模拟退火算法结合起来并应用到资源调度中，以解决上述问题。混合优化算法执行过程如图9所示。

图9 混合优化算法执行流程

为了充分验证混合优化算法的优势，分别从各个节点间的负载情况、资源调度时任务的执行时间等方面对3种算法进行比较。计算环境下模拟的任务数是20~100个，计算节点数为8。3种算法资源负载对比和收敛时间分别如图10和图11所示。

图10 各算法资源负载对比图

图11 各算法收敛时间图

当任务数为100时，各个节点上的负载数据如图10所示，模拟退火算法和粒子群算法在各个节点上负载不均衡程度均大于混合优化算法，说明混合优化算法优化了各个节点间的负载均衡。

从图11中可以看出，任务数在［20，100］时，粒子群算法前期的收敛速度比较快，但是当迭代次数增加时，后期收敛速度开始变慢；与粒子群算法相反，模拟退火算法由于初期信息素的积累较慢，前期搜索速度也比较慢，但是随着信息素的增加，后期任务处理速度会变得比较快。此外，可以看出，混合优化算法在任务的执行时间上比前2种算法都短。

单一的资源调度算法，如粒子群算法和模拟退火算法都有各自的缺点，因此本文使用了混合优化算法，结合2种算法的优点来解决计算环境下资源分配过程中的任务执行时间和负载均衡问题。通过实践验证了该算法的高效性和稳定性，缩小了资源调度的时间，使各个节点之间的负荷更加均衡。

0 5 结束语

在算力网络中，算网大脑通过算力建模、算力分解、算力抽象等方式，不仅能够将多样的算力资源整合到一起，还能够针对不同的渲染任务智能调度最适合的算力资源池进行处理。按照本文提出的方案，目前调度低成本数据中心2个，边缘节点7个，算力资源超过1 200 TFlops，其中低成本数据中心资源平均利用率提升27.5%，边缘节点CPU平均利用率已超过80%。

参考文献

［1］中国信息通信研究院. 中国算力发展指数白皮书［R/OL］.［2022-11-02］. https：//www.doc88.com/p-18461732078483.html?r=1.

［2］中国信息通信研究院. 数据中心白皮书（2022年）［R/OL］.［2022-11-02］. https：//www. xdyanbao. com/doc/8uv7pmpz9d? bd_vid=10650194348990301914.

［3］中国移动通信集团有限公司 . 算力网络白皮书［R/OL］.［2022-11-02］. https：//www.digitalelite.cn/h-nd-1936.html.

［4］张婷婷，王升，李莹，等. 算网融合的泛在计算服务发展和演进趋势分析［J］. 信息通信技术与政策，2021，47（3）：19-25.

［5］董雄丰. 云计算任务调度与资源调度算法研究［D］. 哈尔滨：哈尔滨工业大学，2017.

［6］郭培. 云环境下资源调度算法研究［D］. 开封：河南大学，2015.

［7］穆雪 . 浅谈 3DMAX 软件的教学［J］. 电脑知识与技术，2014，10（9）：2049-2050，2068.

［8］张金龙. “云渲染”工具在计算机辅助设计课程教学中的应用［J］.南方农机，2018，49（23）：99-100.

［9］王金海，黄传河，王晶，等. 异构云计算体系结构及其多资源联合公平分配策略［J］. 计算机研究与发展，2015，52（6）：1288-1302.

［10］华夏渝，郑骏，胡文心. 基于云计算环境的蚁群优化计算资源分配算法［J］. 华东师范大学学报（自然科学版），2010（1）：127-134.

［11］刘愉，赵志文，李小兰，等. 云计算环境中优化遗传算法的资源调度策略［J］. 北京师范大学学报（自然科学版），2012，48（4）：378-384.