Online Shape Modeling of Resident Space Objects Through Implicit Scene Understanding

Online Shape Modeling of Resident Space Objects Through Implicit Scene Understanding

本文为康奈尔大学Sibley School of Mechanical and Aerospace Engineering的Aneesh M. Heintz等人于2022年在Journal of Aerospace Information System上发表的文章,采用了一种view-synthesis网络来隐式表达小天体的形状,用于在小天体探测任务的抵近阶段(Approach)和初步探测阶段(Preliminary Survey)的resolved图像中来生成目标的形状。

本文主要提出了:

  1. 一个包含两个深度网络的框架,包含一个view-synthesis network和一个graph convolutional network;
  2. view-synthesis为系统提供环境理解能力,使用现有图像训练好该网络后,可以用来生成新的观测图像;
  3. graph convolutional network则使用多视图图像集合来构建物体的三维图表示,从而生成物体的形状模型

本文作者认为,经过仿真实验测试,本文提出的pipeline在模型精确性方面,有着与state-of-art methods相当的竞争力。此外,本文的pipeline能够在多环境任务中应用。最后,相比state-of-art methods,本文方法有着较高的计算效率。

数据

本文的训练和测试均采用仿真数据。本文首先设定一系列轨道,这些轨道分为两类:抵进轨道和Preliminary survey轨道(文中提到每一类轨道设定500条,这或许是为了验证本文Pipeline在不同环境下的性能?)。对于Preliminary survey来说,使用的轨道为简单球形轨道,每条轨道上选择40个采样点。对于抵近轨道,使用Keplerian椭球轨道,目标将位于轨道的交点,每条轨道选择100个采样点。在采样点,将采集对目标的成像和当前飞行器的位置和姿态,构成image-pose pair。这些采样点都要在距离目标100km以内,防止距离太远目标变成点目标。仿真中,观测的目标使用四个已知形状的天体:Bennu、Itokawa、Toutatis、Mithra,其中Mithra只有地基雷达的低分形状模型,因此在评估建模精度时,只使用前三个。

对每条轨道的观测中,随机选择m组image-pose对,用来构成”场景”(constitute a scene),随机选择一副图像作为query pair(这里的qurey pair是view-synthesis网络中所需要的),如图一所示;

这些图像的分辨率都是$64\times 64$,所有图像都通过Blender生成。

光照条件将采用随机的方式,以保证训练集能够覆盖不同的光照条件(这里的随机或许是一条oribit一个光照方向?)。网络随机选取40000个场景,即40000个image-pose pair来进行训练。飞行器和目标之间的距离虽然要在100km以内,但也不能太近,从而模仿探测任务的早期阶段。对位姿来说,由于位姿是网络的输入,因此需要通过其他方法来得到位姿,为了方便,本文将采用SfM来得到位姿,但也可以通过其他方法来实现(本文作者的另一篇文章中,提出了使用NeRF来进行位姿估计的方法)。

Pipeline Architecture

本文pipeline的结构如下图所示:

Pipeline分为两个部分,首先是Scene-Representation部分,使用文献[^1]中提到的GQN网络(Generative Query Netword)。关于该网络的细节,需要去相应文献中阅读。该网络的作用是理解场景信息,其结果是从输入的Sence中,学习出场景的信息,并得到新的视角下的图像。换句话说,GQN网络的作用和NeRF是相同的,但这种VAE-based网络有着相对更小的网络模型,运算速度会快一些。经过取舍,本文最终选择了GQN来作为场景理解的主干网络。

GQN的输入是一个场景序列${X^c, P^c}$,称为Context,Qurey序列只输入一系列的位姿${P^q}_m$,最终将输出更多的image-pose pair(文中的图与公式有些对不上)。这些结果如下所示:

原始的Context和GQN生成的Context,将作为Shape-Modeling Graph-convolution Network(GCN)的输入。该部分采用pixel2mesh网络[^2]的主干结构,但进行了多视角处理。同样,该网络的细节参考相应文献。

实验与结论

本文进行了:1)对两个网络单独进行了测试;2)对整个pipeline进行了测试。

单独测试

GQN结果

不太重要。

GCN结果

实验结果表明,Preliminary survey轨道相比approach轨道,有着更好的表现,但并未给出具体的F1 score和模型的RMS对比。两段观测结果都表明,在不将GQN网络所生成的,在新视角下的图像加入GCN输入时,随着初始Context中包含的scene的增加,F Score将提升,特别是增加到25组scene时。

结果如下图所示:
"Preliminary Survey轨道GCN单独测试结果"

"Approach轨道GCN单独测试结果"

Pipeline测试

对整个pipeline的测试有着相似的结果,Preliminary Survey轨道的三维建模精度高于Approach轨道,context中的scene越多,结果也越好。除此之外,本文还与现有的方法进行了对比,如下表所示:
alt

从结果上看,在Preliminary段,本文的pipeline所构建的模型,相比SPC+LA的方法,在像素分辨率上毫无优势(40.91m v.s. 0.5m),但修正精度要高于SPC+LA(可以理解为像素误差)。在Approach段,有着同样的结论。

[^1]: Nguyen-Ha, P., Huynh, L., Rahtu, E., and Heikkilä, J., “Predicting Novel Views Using Generative Adversarial Query Network,” Scandi- navian Conference on Image Analysis, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Vol. 11482 LNCS, Springer, 2019, pp. 16–27.

[^2]: Wang, N., Zhang, Y., Li, Z., Fu, Y., Yu, H., Liu, W., Xue, X., and Jiang, Y. G., “Pixel2Mesh: 3D Mesh Model Generation via Image Guided Deformation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 43, No. 10, Oct. 2021,
pp. 3600–3613.