网站首页 > 技术文章 正文
目前单目6D物体姿态估计中效果比较好的方案是一类间接法,即先利用CNN预测出关键点建立2D-3D对应关系,然后利用PnP/RANSAC算法求解pose。这类方法存在些问题, 例如PnP/RANSAC的计算复杂度较高;不是端到端可训练的,无法得到可微分的pose;对应关系的损失函数不一定能反映真实的pose误差。本文提出一种基于几何指导的单目6D物体姿态直接回归网络,将间接法中的几何特征作为直接回归法中的指导,并且利用几何特征类似图像块的性质,利用一个简单的卷积Patch-PnP模块直接回归pose,在公开的数据集上达到当前最佳的性能。
本期AI Time PhD 直播间,我们有幸请到清华大学自动化系博士生王谷带来报告分享——《单目6D物体姿态估计中基于几何指导的直接回归网络》
王谷:清华大学自动化系在读博士生,师从季向阳教授,主要研究方向为6D物体姿态估计。研究成果曾发表于ECCV/ICCV/CVPR/IJCV等(多次入选口头报告),曾获BOP Challenge 2019/2020单赛道冠军。
个人主页: https://wangg12.github.io/
01
背 景
(1)基于单张RGB图像的6D物体姿态估计
对于6D物体姿态估计,本文要解决的问题场景是使用相机拍摄到单张RGB图片,给定目标物体的三维模型,估计目标物体在场景中相对于相机的三维旋转和三维平移共6个自由度。应用场景包括机器人操纵、增强现实、自动驾驶等。
(2)相关工作
对于使用单张RGB图像的物体姿态估计任务,基于CNN的方法大体可以分为间接法和直接法两类。
基于几何的间接法——Correspondence-based Methods (Sparse/Dense)
例如BB8,YOLO6D,PVNet, SegDriven,Pix2Pose,CDPN,HybridPose,EPOS
思想:首先使用网络预测稀疏/稠密关键点,建立2D和3D的对应关系,然后使用传统PnP/RANSAC算法进行求解。如下图所示。
优点:①可解释性强;②是目前CNN方法中性能不错的方法。
局限性:①PnP/RANSAC算法复杂度高,耗时长;②当两个关键点的集合平均误差相同时可能对应姿态不同,导致训练存在歧义性;③PnP/RANSAC算法不可微分,无法为下游任务提供可微分的姿态预测。
基于自编码器的间接法——Pose Embedding based Methods
例如AAE, Pose-guided AAE (PAE),MultiPath Encoder (MP-Encoder)
思想:生成姿态估计的模板,使用自编码器学习这些模板特征,建立codebook,在测试时将输入图片提取的特征与codebook进行匹配。
优点:①模型小,推理速度快;②能够较好地处理旋转对称性问题。
局限性:①准确性不高;②无法为下游任务提供可微分的姿态预测。
直接法
例如SSD-6D,PoseCNN, DeepIM,Single-Stage,Self6D,CosyPose
思想:直接从图片预测6个自由度的参数。具体做法包括两种,一是将6D姿态离散化并分类;二是直接回归姿态的不同参数化表示。
优点:
①更快速,不依赖传统的PnP/RANSAC方法;
②能够提供可微分姿态预测。
缺点:
①算法表现远不如基于几何的间接法;
②基于迭代细化的算法能提升准确率,但较慢。
02
方 法
本文提出基于几何指导的直接回归网络(GDR-Net),是在基于几何的间接姿态估计法基础上,将2D-3D稠密对应关系等几何特征作为中间特征引入到直接回归框架中(如下图),同时将PnP/RANSAC方法使用一个小的神经网络代替,从而端到端地实现生成可微分的姿态预测。
下图是本文提出的GDR-Net的总体框架,输入是一张RGB图片,训练时将物体区域的随机扰动进行放大,测试时对检测器提取的检测框进行放大。将图像块放大到256x256输入到网络中。网络的构成包括ResNet和DeConv部分,通过这个网络可以回归出一些几何特征,包括稠密3D物体坐标、物体表面区域注意力和物体前景的掩码。将这些几何特征(2D-3D稠密对应关系和物体表面区域注意力)输入到基于Conv+FC(全连接层)的神经网络——Patch-PnP来回归姿态。
03
实 验
Toy 实验:
本文在RGB图片上合成了单位球的2D-3D对应关系,并且加入了不同等级的噪声,将本文方法与传统的RANSAC+EPnP以及基于学习的Single-Stage进行对比。随着噪声等级升高,本文方法的鲁棒性最强,而且误差也是最低的;当噪声很低时,传统RANSAC+EPnP方法的效果最好,但在实践中基本不会有这么低的噪声。
消融实验:
数据集:LINEMOD
实验结果:
图(a)是对物体表面区域数量进行了实验研究,当数量为0时,没有进行区域划分,仅有2D-3D对应关系,相当于直接用神经网络拟合传统的PnP/RANSAC方法,其与进行区域划分的方式相差不大,能看出来传统RANSAC方法还是很强的。
图(b)是对本文方法的其他不同组成成分(不同的PnP方法、旋转的参数化表示、平移的参数化表示、损失函数的不同定义、以及有无几何指导等)进行了消融实验,例如B0行是本文方法的性能,对比G0行去掉几何指导,证明了几何指导在本文任务的重要性。
对比SOTA:
数据集:LM-O
数据集:YCB-V
04
总 结
本文回顾了6D姿态估计的间接法和直接法,并且提出了一种综合了基于几何的间接法和直接法的 GDR-Net(基于几何指导的直接回归网络)。其关键思想是将2D-3D稠密对应关系相关的中间几何特征使用Patch-PnP直接进行6D姿态回归,实现可微分的姿态估计。GDR-Net在单目6D物体姿态估计中具有实时、准确和鲁棒的性能。
项目源码:
https://github.com/THU-DA-6D-Pose-Group/GDR-Net
- 上一篇: HybridPose:混合表示下的6D对象姿势估计
- 下一篇: PnP算法原理举例及解释 pnn算法
猜你喜欢
- 2024-09-30 2023最新自动驾驶领域500+面试题汇总
- 2024-09-30 CFNet:三维激光雷达与相机自动在线外部校准方法
- 2024-09-30 清华大学王谷为大家分享自己的研究工作——GDR-Net
- 2024-09-30 PnP算法原理举例及解释 pnn算法
- 2024-09-30 HybridPose:混合表示下的6D对象姿势估计
- 2024-09-30 HybridPose:混合表示下的6D对象姿态估计
- 2024-09-30 一文读懂自动驾驶中基于特征点的视觉全局定位技术
- 2024-09-30 3D视觉定位技术 3d视觉定位技术是什么
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)