计算机系统应用教程网站

网站首页 > 技术文章 正文

干货!单目6D物体姿态估计中基于几何指导的直接回归网络

btikc 2024-09-30 13:08:02 技术文章 11 ℃ 0 评论

目前单目6D物体姿态估计中效果比较好的方案是一类间接法,即先利用CNN预测出关键点建立2D-3D对应关系,然后利用PnP/RANSAC算法求解pose。这类方法存在些问题, 例如PnP/RANSAC的计算复杂度较高;不是端到端可训练的,无法得到可微分的pose;对应关系的损失函数不一定能反映真实的pose误差。本文提出一种基于几何指导的单目6D物体姿态直接回归网络,将间接法中的几何特征作为直接回归法中的指导,并且利用几何特征类似图像块的性质,利用一个简单的卷积Patch-PnP模块直接回归pose,在公开的数据集上达到当前最佳的性能。


本期AI Time PhD 直播间,我们有幸请到清华大学自动化系博士生王谷带来报告分享——《单目6D物体姿态估计中基于几何指导的直接回归网络》


王谷:清华大学自动化系在读博士生,师从季向阳教授,主要研究方向为6D物体姿态估计。研究成果曾发表于ECCV/ICCV/CVPR/IJCV等(多次入选口头报告),曾获BOP Challenge 2019/2020单赛道冠军。

个人主页: https://wangg12.github.io/


01

背 景


(1)基于单张RGB图像的6D物体姿态估计


对于6D物体姿态估计,本文要解决的问题场景是使用相机拍摄到单张RGB图片,给定目标物体的三维模型,估计目标物体在场景中相对于相机的三维旋转和三维平移共6个自由度。应用场景包括机器人操纵、增强现实、自动驾驶等。



(2)相关工作


对于使用单张RGB图像的物体姿态估计任务,基于CNN的方法大体可以分为间接法和直接法两类。


基于几何的间接法——Correspondence-based Methods (Sparse/Dense)

例如BB8,YOLO6D,PVNet, SegDriven,Pix2Pose,CDPN,HybridPose,EPOS



思想:首先使用网络预测稀疏/稠密关键点,建立2D和3D的对应关系,然后使用传统PnP/RANSAC算法进行求解。如下图所示。



优点:①可解释性强;②是目前CNN方法中性能不错的方法。

局限性:①PnP/RANSAC算法复杂度高,耗时长;②当两个关键点的集合平均误差相同时可能对应姿态不同,导致训练存在歧义性;③PnP/RANSAC算法不可微分,无法为下游任务提供可微分的姿态预测。


基于自编码器的间接法——Pose Embedding based Methods

例如AAE, Pose-guided AAE (PAE),MultiPath Encoder (MP-Encoder)



思想:生成姿态估计的模板,使用自编码器学习这些模板特征,建立codebook,在测试时将输入图片提取的特征与codebook进行匹配。

优点:①模型小,推理速度快;②能够较好地处理旋转对称性问题。

局限性:①准确性不高;②无法为下游任务提供可微分的姿态预测。


直接法

例如SSD-6D,PoseCNN, DeepIM,Single-Stage,Self6D,CosyPose



思想:直接从图片预测6个自由度的参数。具体做法包括两种,一是将6D姿态离散化并分类;二是直接回归姿态的不同参数化表示。

优点:

①更快速,不依赖传统的PnP/RANSAC方法;

②能够提供可微分姿态预测。

缺点:

①算法表现远不如基于几何的间接法;

②基于迭代细化的算法能提升准确率,但较慢。


02

方 法


本文提出基于几何指导的直接回归网络(GDR-Net),是在基于几何的间接姿态估计法基础上,将2D-3D稠密对应关系等几何特征作为中间特征引入到直接回归框架中(如下图),同时将PnP/RANSAC方法使用一个小的神经网络代替,从而端到端地实现生成可微分的姿态预测。



下图是本文提出的GDR-Net的总体框架,输入是一张RGB图片,训练时将物体区域的随机扰动进行放大,测试时对检测器提取的检测框进行放大。将图像块放大到256x256输入到网络中。网络的构成包括ResNet和DeConv部分,通过这个网络可以回归出一些几何特征,包括稠密3D物体坐标、物体表面区域注意力和物体前景的掩码。将这些几何特征(2D-3D稠密对应关系和物体表面区域注意力)输入到基于Conv+FC(全连接层)的神经网络——Patch-PnP来回归姿态。



03

实 验


Toy 实验:

本文在RGB图片上合成了单位球的2D-3D对应关系,并且加入了不同等级的噪声,将本文方法与传统的RANSAC+EPnP以及基于学习的Single-Stage进行对比。随着噪声等级升高,本文方法的鲁棒性最强,而且误差也是最低的;当噪声很低时,传统RANSAC+EPnP方法的效果最好,但在实践中基本不会有这么低的噪声。



消融实验:

数据集:LINEMOD

实验结果:

图(a)是对物体表面区域数量进行了实验研究,当数量为0时,没有进行区域划分,仅有2D-3D对应关系,相当于直接用神经网络拟合传统的PnP/RANSAC方法,其与进行区域划分的方式相差不大,能看出来传统RANSAC方法还是很强的。

图(b)是对本文方法的其他不同组成成分(不同的PnP方法、旋转的参数化表示、平移的参数化表示、损失函数的不同定义、以及有无几何指导等)进行了消融实验,例如B0行是本文方法的性能,对比G0行去掉几何指导,证明了几何指导在本文任务的重要性。



对比SOTA:

数据集:LM-O


数据集:YCB-V


04

总 结


本文回顾了6D姿态估计的间接法和直接法,并且提出了一种综合了基于几何的间接法和直接法的 GDR-Net(基于几何指导的直接回归网络)。其关键思想是将2D-3D稠密对应关系相关的中间几何特征使用Patch-PnP直接进行6D姿态回归,实现可微分的姿态估计。GDR-Net在单目6D物体姿态估计中具有实时、准确和鲁棒的性能。


项目源码:

https://github.com/THU-DA-6D-Pose-Group/GDR-Net

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表