InstantAvatar：从 60 秒单目视频中学习数字人化身

本论文提出了 InstantAvatar，一种针对单目视频的高效生成数字人的方法，与现有方法相比，InstantAvatar 的收敛速度提高了 130 倍，并且可以在几分钟而不是几小时内完成训练。它实现了可比甚至更好的重建质量和新颖的姿势合成结果。InstantAvatar 可以在短短 10 秒的训练时间内产生可接受的视觉质量。

来源：Arxiv
论文作者：Tianjian Jiang， Xu Chen等
论文链接：https://arxiv.org/pdf/2212.10550.pdf
项目主页：https://tijiang13.github.io/InstantAvatar/
内容整理：王炅昊

摘要

创建高保真数字人类对于许多应用都很重要，包括全息投影、AR/VR、3D 图形学和新兴的元宇宙等概念。目前获取个性化头像是一个复杂的过程，通常需要使用校准的多摄像头系统，并产生大量的计算成本。在本文中，作者着手构建一个仅从单眼视频学习 3D 虚拟人的系统，该系统足够轻便，可以广泛部署，并且速度足够快，可以实现步行和使用场景。

在本文中，作者通过贡献 InstantAvatar 向单目数字人重建的现实应用迈出了重要一步，InstantAvatar 是一种可以在几秒钟内从单眼视频中重建人类化身的系统，并且可以以交互速率对这些化身进行动画处理和渲染。为了实现这种效率，作者提出了一个精心设计和设计的系统，该系统利用新兴的神经场加速结构，并结合用于动态场景的高效空白空间跳跃策略。

与现有方法相比，InstantAvatar 的收敛速度提高了 130 倍，并且可以在几分钟而不是几小时内完成训练。它实现了可比甚至更好的重建质量和新颖的姿势合成结果。当给定相同的时间预算时，作者的方法明显优于 SoTA 方法。InstantAvatar 可以在短短 10 秒的训练时间内产生可接受的视觉质量。

方法

整体流程

本文提出的整体架构如图，主要分为几个部分。

对于每一帧，作者沿着目标姿态空间中的光线采样点。然后，作者将这些点转换到归一化空间（Normalized Space），在该空间中作者移除了人的全局旋转方向和平移。在这个归一化空间中，作者使用占用网格（Occupancy Grid）过滤空白空间中的点。其余点使用关节模块变形到规范空间（Canonical Space），然后输入规范空间的神经辐射场，以获取颜色和密度。

规范空间的神经辐射场

关节运动辐射场（Articulating Radiance Fields）

快速求根

基于体素表示蒙皮权重场

为了节约计算成本，作者使用了一个最新的快速求解方式Fast-SNARF，它将蒙皮权重场改为一个低分辨率的体素网格表示。作者方法的核心是在 SNARF 的每个寻根迭代中将昂贵的计算（包括 MLP 评估和 LBS 计算）分解到预计算阶段。

原本的SNARF 的主要速度瓶颈在于使用 Broyden 方法计算的每次迭代中。计算它很耗时，因为它涉及查询蒙皮权重，这些权重是通过 SNARF 中的 MLP 参数化的，随后还需要计算线性混合蒙皮的前向传播。

作者注意到，蒙皮权重场相对连续，并不包含高频细节。因此，作者使用低分辨率体素网格 {W_v} 重新参数化蒙皮权重场，为每一个格点位置X_v定义了蒙皮权重 W_v ，然后通过三线性插值获得空间中任何非网格对齐点的蒙皮权重。作者发现， 64 × 64 × 16 的网格分辨率足以描述所有实验中的蒙皮权重。其总体过程如下图所示：

预计算线性混合蒙皮

在每次根查找迭代时计算线性混合蒙皮也会影响速度。为了进一步提高计算效率，作者注意到基于显式体素的蒙皮权重表示{W_v}，允许作者计算给定当前身体姿势的网格点{T_v}的线性混合蒙皮变换：

然后，在求根期间，可以通过在 {T_v} 中对相邻变换进行三线性插值来确定任何规范点 T(x) 所需的变换。因此，LBS 只需要为一小组网格点，而不是根查找过程中的所有查询点运行。

针对动态目标的空白空间跳跃

作者注意到，由于 3D 人体肢体的铰接结构，人体周围的 3D 边界框由空白空间主导。这会导致在渲染过程中产生大量冗余样本查询，从而显着降低渲染速度。对于刚性物体，通过缓存粗糙的占用网格，并在未占用的网格单元中跳过样本来消除此问题。然而，对于动态对象，空白空间的确切位置在不同的帧中有所不同，具体取决于姿势。

推理阶段

在推理时，对于每个输入身体姿势，作者在姿势空间中的 64 × 64 × 64 网格上采样点，并从姿势辐射场查询它们的密度。然后作者将这些密度阈值化为二进制占用值。为了移除由于空间分辨率低而被错误标记为空的单元格，作者扩大了占据的区域以完全覆盖主体。由于此网格的低分辨率和渲染图像所需的大量查询，构建此类网格的开销占用网格可以忽略不计。

在体渲染过程中，对于未被占用的单元格内的点样本，作者直接将它们的密度设置为零，而不查询姿态辐射场。这将不必要的计算减少到最低限度，从而提高了推理速度。

训练阶段

然而，在训练期间，在每次训练迭代中构建这样一个占用网格的开销不再是微不足道的。为了避免这种开销，作者通过记录每个单独帧中占用区域的并集，为整个序列构建了一个占用网格。具体来说，作者在训练开始时构建一个占用网格，并通过获取当前占用值的移动平均值和在当前迭代中从构成辐射场查询的密度，每 k 次迭代更新一次。请注意，此占用网格是在规范化空间中定义的，其中全局方向和平移被分解，以便占用空间的联合尽可能紧密，从而进一步减少不必要的查询。

渲染过程

损失函数

色彩损失

作者以相对鲁棒的Huber Loss作为颜色的监督损失函数：

轮廓损失

作者使用了人体的掩码先验，用它来监督网络的密度输出：

表面归一化

作者添加进一步的表面正则化，以鼓励 NeRF 模型预测出更稳定的表面：

其中 const 是一个常数，以确保损失值是非负的。鼓励实体表面有助于加快渲染速度，因为一旦累积的不透明度达到 1，作者就可以提前终止光线。

占用归一化

此前的数字人学习方法通常鼓励模型通过利用 SMPL 身体模型作为正则化器，来预测表面外点的零密度和表面内点的密度。这样做是为了减少身体表面附近的伪影。然而，这种正则化对身体的形状做出了很大的假设，并且不能很好地概括宽松的衣服。此外，作者凭经验发现这种正则化在去除身体附近的伪影方面无效。作者不使用 SMPL 进行正则化，而是使用作者的占用网格，这是对主体和衣服形状的更保守估计。于是，作者定义了一个额外的损失 L_density，它鼓励在空网格中的点具有零密度：