RGB图像的相对位姿估计 | CVPR 2021

本文提出了一种在极端情况下估计 RGB 图像对相对三维旋转的方法,即使图像没有或几乎没有重叠部分。通过观察图像中的隐含线索,如光源方向、消失点和场景对称性,作者设计了一种网络,通过比较两个输入图像之间的点对来自动学习这些线索。我们的方法构建了密集的特征相关体,并对其进行处理以预测相对的三维旋转。预测是在离散化的旋转角度上进行的,从而避免了回归三维旋转的困难。作者在大量包含不同照明条件和地理位置的极端 RGB 图像对上进行了演示。实验结果表明,本方法可以成功估计非重叠图像之间的相对旋转,并且不会影响在重叠图像对上的性能。

来源:CVPR 2021
项目链接:https://arxiv.org/abs/2104.13530
作者:Ruojin Cai et al.
内容整理:陈梓煜

简介

本工作解决了估计没有或几乎没有重叠区域的 RGB 图像对之间的相对位姿的问题。我们提出了一种方法,可以在存在可能的极端相对运动情况下估计一对图像之间的相对 3D 旋转。这对于从稀疏视图中进行的 3D 重建等应用有着潜在的好处,例如在在线房地产广告中展示房屋时。我们利用图像中的隐含信息来推理相对旋转,从而克服了传统方法无法处理的限制。

图片
图1

对于室外图像对,我们可以通过照明线索来推断相对方向,例如分析哪些建筑物被照亮或阴影的方向。几何线索也是有用的。例如,从室内图像对中,我们可以通过 3D 空间中的一组平行垂直线(用黄色标记)推断出相机的俯仰角,这暗示了一个消失点,并且我们可以通过分析对称性和长椅的布局来推断出相机的右旋转。考虑到存在这种”隐藏”线索,一种计算相对旋转的方法是通过显式地学习这些线索,例如通过标记消失点并学习预测它们的方法来进行监督学习。然而,除了需要额外的监督的缺点外,我们不希望将模型限制在一组可能与测试时提供的图像对相关或不相关的手工设计的线索上。

我们的目标是仅通过姿态监督来学习预测相对旋转。对于诸如消失点和光照这样的线索的推理,虽然仅通过直接的特征对应是不可行的,但却可以通过比较局部属性,如线的方向和阴影和光源来实现。因此,我们使用了密集关联体素,这是一种在光流或立体匹配等对应任务中使用的工具。在一个完整的密集关联体素中,从图像对的特征图中的每一对点都会进行比较。在像光流和立体匹配这样比较高度重叠图像的任务中,密集的密集关联体素已经表现出优越的性能。然而,我们发现它们在找到不是直接对应形式的隐式线索时也是有效的。因此,我们处理图像对时都通过构建一个密集的 4D 密集关联体素来进行处理。这种设计使我们既能在重叠的图像对中找到显式的像素级对应关系,又能利用非重叠图像对中的隐式线索。

为了估计相对旋转,我们使用另一个网络处理密集关联体素,对 3D 旋转空间进行细粒度的离散概率估计。我们的框架可以端到端地进行训练,并且通过简单的损失函数进行优化,避免了与回归 3D 旋转相关的困难。我们在大量不同场景、不同地理位置、不同光照条件下的极端 RGB 图像对上评估了我们的方法。并达到了 SOTA 的效果和非常强的泛化能力。

方法

给定一对 RGB 图像 (ɪ12),我们的目标是估计两个图像之间的 3D 旋转矩阵 R。为了在极端旋转预测这一困难任务中允许发现和使用隐藏的线索,我们使用密集的密集关联体素,以便发现隐式线索。这些密集的体积被输入到一个精细的相对旋转分类网络中。我们的方法概述如图 2 所示。

图片
图2 方法框架

参数化

RGB图像的相对位姿估计 | CVPR 2021

密集关联体素(Dense Correlation Volumes)

我们的解决方案受传统方法的启示,这些方法通过投票机制或其他机制从局部特征累积全局量。例如,考虑从单幅图像中检测消失点的问题。一种方法是使用类似于霍夫变换的累积方法,让局部特征如线段对消失点进行投票。在我们的问题中,我们给定了一对图像,并希望估计相对旋转,我们观察到任何一对图像块都可以为全局几何图像关系提供证据,例如支持相关消失点位置的两个图像块,或者给出光源方向的两个图像块。

图片
图3 密集关联体素
RGB图像的相对位姿估计 | CVPR 2021

与先前的工作不同,先前的工作在光流或立体匹配中使用相关体来直接预测像素级对应关系。然而,我们的相关体在训练过程中隐含地兼具两种角色,这种角色在处理重叠和非重叠图像对时会显现出来。当输入的图像对有显著重叠时,可以计算点对点的对应关系,并传递给后续的旋转预测模块。当输入的图像对没有或很少重叠时,相关体可以扮演检测隐含线索的新角色。

我们通过图 3 中的可视化来展示这种双重角色。我们对每个图像在一对图像中的每个区域进行遮挡,并使用滑动窗口的方式将其输入到我们的网络中,以评估每个区域对计算相对姿态的重要性。如左侧图像对中所示,遮挡重叠区域显著影响模型对重叠图像对的预测结果。对于非重叠图像对,遮挡对应于强消失点的区域会导致性能急剧下降。

图片
图4

我们的密集相关体 C 被输入到一个旋转分类网络 gσ 中,该网络的任务是预测相对旋转角度。

相对角度估计

我们的相对旋转分类网络 gσ 由三个相同的网络构成,其中每个网络分别预测相对旋转的三个角度之一,根据我们的三个角度参数化方法。学习基于姿态估计的方法通常回归旋转和平移参数。然而,常用的 3D 旋转表示,包括欧拉角和四元数,是不连续的,因此在深度网络中直接回归这些表示方法存在挑战。

作为直接回归相对角度的替代方法,我们对旋转空间进行离散化处理,对每个角度估计一个包含 N 个 bin 的概率分布。我们经验性地将 N 设置为 360,并使每个 bin 捕捉到范围在  的一个角度。这种离散化与同时进行的工作相关,该工作将 3D 旋转离散化为旋转矩阵的列向量。我们精细的离散化角度参数化方法使得可以使用简单的交叉熵损失来训练我们的网络。在训练过程中,使用 one-hot 向量作为 ground truth 计算三个角度的交叉熵损失函数的和。

实验

我们的方法在各种室内外场景的极端 RGB 图像对上进行了大量实验证明。我们将其与几种基准方法进行比较,并评估其在重叠和非重叠图像对上的性能。

数据集

  • StreetLearn 是一个包含大约 14.3 万个全景图像的室外数据集,覆盖了曼哈顿和匹兹堡等城市。我们从曼哈顿地区随机选择了大约 5.6 万张图像进行训练,并将 1,000 张图像用于测试。
  • SUN360 是一个包含 9,962 个室内全景图像的数据集,涵盖了不同场景,共分为 50 个类别。我们使用约 7,500 个全景图像进行训练,并将剩余的 830 个图像用于测试。
  • InteriorNet 是一个合成的室内数据集,包含了来自 112 个不同房屋的 10,050 个全景图像。我们从中选择了 82 个房屋的图像进行训练,剩余的 30 个房屋的图像用于测试。

基线方法

  • 基于 SIFT 的相对旋转估计:这是一种基于几何的方法,通过计算 SIFT 特征,并使用 2 点算法估计来自同一全景图像对的旋转矩阵。
  • 基于学习的特征匹配:我们使用预训练的网络进行兴趣点检测和描述子提取,并使用模型拟合方法进行特征匹配。我们评估了预训练的 SuperPointNet 和 D2-Net。
  • 端到端的相对旋转回归:其中图像特征被连接并输入到回归模型中。我们评估了预测 6D 连续表示的模型。

评估指标

RGB图像的相对位姿估计 | CVPR 2021

为了分析方法在不同重叠比例下的性能,我们将测试图像对划分为三个类别:

  1. large,表示高度重叠的图像对(相对旋转角度最大为 45 度
  2. small,表示部分重叠的图像对(相对旋转角度在 45 度到 90 度之间
  3. none,表示没有重叠的图像对(相对旋转角度大于 90 度)。

量化评估

在表格 1 中报告了测地线误差的平均和中位数,以及相对旋转误差小于 10 度的图像对的百分比。

图片
表1

定性结果在图 5 中展示。

图片
图5

我们根据重叠程度对结果进行了分析:

图片存在重叠的情况
对于从同一全景图中采样的图像对,我们的模型在室内和室外场景中都能产生非常准确的结果,对于小重叠的图像对,平均误差分别为 4.31 度、6.13 度和 3.23 度。对于回归基准方法而言,将非重叠的图像对加入训练会导致回归基准在重叠图像对上的性能下降,而我们的方法没有出现这种情况。

在使用带有相机平移的数据集进行训练的模型性能稍低。对于这些数据集,由于相机运动,重叠区域可能较小。特别是对于 StreetLearn-T 数据集,平移量较大,这可能对重叠区域产生更显著的影响。尽管如此,我们的方法在带有平移的数据集中仍然能够实现较低的中位数误差(约为 3 度)。

SuperPoint 在 StreetLearn-T 的大重叠和小重叠情况下都能够取得最小的平均误差(分别为 6.38 度和 6.80 度)。然而 SIFT 和 SuperPoint 并不总是能够输出答案。只有成功的图像对才会被考虑进行评估,因此这些误差应被解释为在它们能够产生答案的图像对上的误差。我们的方法在所有数据集上仍然显著优于 SuperPoint,尤其是在小于 10 度误差的图像对比例方面,这表明 SuperPoint 在某些情况下无法给出答案。

图片不存在重叠的情况
基于特征匹配的方法和仅在有重叠区域的图像对上训练的回归模型在视角变化较大的图像对上表现不佳,无法获得足够的对应点,从而导致在没有重叠区域的图像对上产生失败。这些方法的中位误差通常在 18 度以上,对于某些数据集甚至可能更大。

相比之下,我们的方法在中位误差方面始终保持在 5 度以下,但平均误差在 6 度到 49 度之间波动。这表明我们的方法通常具有较高的准确性,但偶尔可能会产生较大误差,主要是由于预测的旋转角度存在歧义。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论