IEEE VR 机器学习:360° 图像的扫描路径生成模型

论文名称:ScanGAN360: A Generative Model of Realistic Scanpaths for 360° Images
论文作者:Daniel Martin 等
论文链接:https://graphics.unizar.es/papers/2022_Martin_ScanGAN360_authors.pdf

虚拟现实是一种新兴媒体,它可以解锁前所未有的体验,并有可能改变我们人们消费内容的方式。然而,为了传达真实的体验,了解人们在虚拟现实中的行为方式至关重要。所以这是一项非常具有挑战性的任务,并且作为 VR 中的一个关键问题已经被提出了很长时间。在虚拟环境中,用户周围 360 度都有内容。此外,与内容创作者决定展示什么的传统媒体不同,现在由用户完全控制相机。这意味着,为每个用户在查看相同的模拟时具有完全不同的行为。

因此,此前一些工作试图根据显着性对视觉注意力进行建模,其中场景的每个区域都被分配了一个显著性值,用来表示用户吸引他们注意力的可能性有多大。然而,显著性缺乏时间信息。而与此同时,观众们在观看时的眼睛轨迹之间完全不同。

任务定义

图片

如图所示,圆形的点表示观察者的观察中心。可以发现,在这个场景中,不同观察者的的关注点以及关注点的轨迹都不尽相同。上述轨迹被称为画布(canvas)。

作者希望,给定一个 360° 场景,他们的方法可以生成模拟了真实用户行为的这种画布,与此同时保持其多样性。这项工作具有很大的相关性,因为从人们那里获取具有视觉多样性观看数据,是一项非常繁琐的任务。它需要复杂的软件和硬件设置来显示内容并为必须长时间记录观看行为的大量参与者捕获观看数据。总之,这项任务需要很多小时,并且必须处理无限量的数据。因此,这也可能对许多其他应用产生巨大影响,例如叙事体验、室内博物馆设计、虚拟化身、NPC 设计,甚至渲染技术和算法。

模型

图片

训练

训练部分,两个网络都具有双分支结构:借助 CoordConv 层和类似编码器的网络从 360° 图像中提取的特征与输入向量连接以进行进一步处理。生成器学习将这个以图像为条件的输入向量转换为合理的扫描路径。鉴别器将扫描路径(由生成器捕获或合成)以及相应的图像作为输入向量,并确定该扫描路径是真实的(或虚假的)的概率。我们遵循条件 GAN 方案,以对抗的方式端到端地训练它们。

参数化

值得注意的是,在 equirectangular 投影中处理 360° 图像时,注视点通常也由它们的纬度和经度表示。然而,这些参数化要么在 360° 图像的边界处受到不连续性的影响,要么导致周期性的、多义性的值。因此,作者将这个坐标重参数化到 3D 坐标系中,消除了这种问题,如下所示:

图片

结果

如下图所示,作者展示了他们生成的轨迹。可以看到,该轨迹随着时间推进进行连续的移动,而且大都集中在一些观众可能更感兴趣的物体上。

图片

除此之外,作者还与此前的方案进行了对比,如下图所示:

图片

可以发现,相比于其他方法,作者的方法(最左侧)生成的轨迹更关注于场景中的主要相关物体,并且移动模式更为合理。

作者的模型可用于辅助虚拟场景的设计。在下图中展示了两个示例,每个示例都有两种可能的布局(原始布局和删除一些重要元素)。他们从同一区域生成大量扫描路径(虚拟观察者),并使用 KDE 计算它们对应的概率密度函数作为时间的函数。

图片

由上图可见,在 room 场景中,餐桌和台灯(上)的存在让观者的注意力停留的时间更长,而在他们不在的情况下,他们更快地向客厅区域移动,表现出更线性的探索。在 gallery 场景中,当出现中心图片时(上图),观众会在那里逗留,然后分散到场景的两侧。在没有它的情况下,观察者会向左移动,然后沿该方向线性探索场景。

来源:IEEE VR 2022
内容整理:王炅昊 

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论