基于神经网络的生成式三维数字人研究综述:表示、渲染与学习

研究意义

虚拟数字人即运用数字技术创造的、拥有数字化表现形式的虚拟人物，大规模生产高质量虚拟数字人化身，既是人类进入“元宇宙”等虚拟世界的基础，也是人类进一步探索更广阔的数字空间的迫切需求。

基于计算机图形学的方法能够生产高拟真的虚拟数字人，但其建模过程复杂，依赖于专业的感知设备和精细的人力工作，无法满足大规模数字人的生产需求，这些限制阻碍了数字人的普及和应用。近年来，利用生成式人工智能技术创造数字人的方法，极大简化了三维数字人建模流程，提升了模型的真实感，展现出巨大的发展潜力。

本文工作

本文从生成式模型的视角对三维数字人技术进行全面回顾，并总结了生成式三维数字人建模流程的三个关键步骤：表示、渲染与学习。重点介绍基于神经网络的数字人研究方法，梳理其技术发展趋势及典型应用场景，让读者能够较为全面地了解数字人的生成技术。

表示：首先，需要确定三维数字人模型的表示方式，常见的表示方式可以分为显式表示和隐式表示两种形式。显式表示包括点云和多边形网格等，是游戏、影视制作等工业应用中的主流表示方式。隐式表示包括符号距离函数、水平集等。随着深度学习的发展，隐式表示也逐渐成为数字人研究的热点，越来越多的方法使用神经网络来逼近隐式函数，并由此恢复出数字人的精细几何与纹理。

渲染：第二个重要步骤是渲染，是从三维数字人模型到二维图像的映射过程，该步骤直接决定了数字人呈现的视觉效果。渲染过程一般是对物理世界成像原理的模拟和简化，但是这种简化会造成渲染质量的下降。神经网络渲染技术引入了数据驱动学习方式，极大地提升了渲染的真实感。近年来，神经网络渲染技术已经成功应用到数字人生成流程中，使生成高度拟真的三维数字人成为可能。

学习：最后，生成式三维数字人模型需要对数据进行学习，不同的数据类型会造成学习方式的差异。如使用三维扫描数据，对于网格等显式表示模型，一般需要先将扫描数据与模型进行配准，生成一致的拓扑结构，然后进行学习；而对于隐式表示模型，则一般可以直接从原始扫描数据进行学习。