RGB-D多模态数据的多视角图像三维混合特征学习 | 杨镑镑,章国锋,鲍虎军等

研究意义

利用RGB相机和深度传感器等设备对真实三维场景进行数字化重建，是AR/VR、元宇宙、机器人等诸多应用领域的一项关键技术。为了保障重建质量，算法往往需要精准估计场景的三维注册信息。目前，随着Kinect、iPad/iPhone Pro系列等包含深度相机的消费电子产品的普及，使用RGB-D数据进行场景的三维重建变得越来越常见，其中的深度观测可以显著提高注册和重建的质量。

由于二维RGB图像以及深度相机的三维点云观测不可避免地都会有一些噪声，单独使用某一模态的信息或者是简单地进行数据融合，很容易会因为多模态信息利用率的不足以及融合时的匹配问题，在一些几何/纹理较为复杂或者退化的场合出现扫描片段注册失败的情况。因此，研究设计一种有效融合多模态数据的混合特征，对于提升真实复杂场景中的扫描片段的注册精度和整体建模鲁棒性具有重要作用。

本文工作

本文提出了一种新颖的鲁棒场景三维扫描注册算法，通过对RGB-D多模态数据进行学习，并利用多视角图像信息来补充三维几何特征，显著地提升了三维场景扫描片段的注册性能。通过提取二维图像平面和三维空间的特征，本方法能有效挖掘出只存在于纹理空间 (例如，几何形状为平面但具有丰富纹理特征的海报) 或几何空间 (例如，弱纹理的家具或几何转角处) 的有效特征，从而通过融合多视角和多模态特征，从而得到强大的混合特征检测器和描述子，并实现了卓越的注册性能。

图1 本文提出的多模态特征融合示意图

本文的贡献点主要如下：

(1) 提出了一种基于多模态特征融合的三维混合特征学习框架，在真实场景数据集上实现了先进的点云片段注册性能。

(2) 提出了一种二维特征提取模块，通过选择图像上跨视角鲁棒的平面特征用于三维注册，解决了二维-三维观测在信息密度上的差异性。

(3) 提出了一种三维软特征融合模块，通过数据驱动的方式将多模态的跨视角二维特征与三维特征进行融合，解决了特征关联的模糊性问题。

(4) 提出了一种自监督的三维特征评分模块，提高了场景扫描数据的关键点选择质量，使得算法在少量关键点下就能达到先进的注册性能。

实验结果

图2 使用不同特征的RGB-D扫描片段注册比较

图2展示了一个具有挑战性的RGB-D扫描片段注册样例 (来自Redwood数据集)。由于几何特征上的模糊性 (平坦的墙壁) 和不充分的纹理特征，基于点云特征的方法OverlapPredator和基于纹理特征的方法SuperPoint都难以注册这两个片段。相比之下，本文所提出的方法通过融合多模态的信息，鲁棒地注册了这对扫描片段。

图3 不同方法利用5000关键点进行扫描片段点云注册的对比结果

表1 不同方法在 3DMatch 和 Redwood 数据集上的点云注册性能对比结果

如图3和表1所示，即使没有使用点云交叉注意力机制，本文方法也能鲁棒地注册若干只有小面积重叠的扫描片段，并达到领先的注册性能。而且，本文所提出的方法只用500个关键点就可以超过许多使用5000个关键点的方法，这表明本方法在真实复杂场景的扫描片段点云注册上具有性能优势。此外，当使用50个关键点时，本方法在Redwood数据集上比D3Feat高出22.4%，在3DMatch数据集上高出26.1%。

文章信息

Bangbang YANG, Zhaoyang HUANG, Yijin LI, Han ZHOU, Hongsheng LI, Guofeng ZHANG & Hujun BAO. Hybrid3D: learning 3D hybrid features with point clouds and multi-view images for point cloud registration. Sci China Inf Sci, doi: 10.1007/s11432-022-3604-6