网站首页 > 技术文章正文

清华大学王谷为大家分享自己的研究工作——GDR-Net

btikc 2024-09-30 13:08:12 技术文章 13 ℃ 0 评论

本期AI TIME PhD直播间，我们邀请到清华大学自动化系在读博士生王谷，来给大家分享他的研究工作——GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation

王谷：

清华大学自动化系在读博士生，师从季向阳教授，主要研究方向为6D物体姿态估计。研究成果曾发表于ECCV/ICCV/CVPR/IJCV等（多次入选口头报告），曾获BOP Challenge 2019/2020单赛道冠军。
个人主页: https://wangg12.github.io/

摘要

基于单张RGB图像的6D物体姿态估计是计算机视觉中的一项基本任务。目前性能最好的基于深度学习的方法依赖于一种间接策略，即首先建立图像平面坐标与目标坐标系的2D-3D对应关系，然后应用PnP/RANSAC算法的某种变体。然而，这类两阶段的方法不是端到端可训练的，因此很难用于许多需要可微位姿的任务。另一方面，基于直接回归的方法目前相比于基于几何的间接方法逊色许多。在这项工作中，我们对直接和间接方法进行了深入研究，并提出了一种简单而有效的几何指导的直接回归网络(GDR-Net)，以端到端的方式从基于密集对应关系的中间几何表示中学习6D姿态。大量的实验表明，本文提出的方法在LM, LM-O和YCB-V数据集上显著优于当前最先进的方法。

核心贡献

通过引入间接法中基于稠密2D-3D对应关系的几何特征，作为指导直接回归6D姿态的中间特征，从而将学习稠密对应关系和回归6D姿态用一个端到端的网络统一起来。其核心是我们回归的稠密几何特征可以被表达成类似图像块的规则2D特征图，因此可以用很简洁但很高效的2D卷积加全连接层拟合不可微分的PnP/RANSAC。

此外，我们还深入探究了直接6D姿势回归中的关键成分，并观察到，通过为姿势参数选择适当的表示，与最先进的基于对应的间接方法相比，基于直接回归的方法也能表现出具有竞争力的性能。

方法概览

给定一个RGB图像I，GDR-Net将放大后的RoI(训练时使用动态放大策略，测试时使用现成的检测器)作为输入，并预测几个中间几何特征。然后，Patch-PnP直接从密集对应关系(M2D-3D)和表面区域注意(MSRA)回归6D物体姿态。

实验结果

在合成球上的toy实验，说明在噪声等级增加时，Patch-PnP在鲁棒性和准确率上均优于基于稀疏对应关系+PointNet的Single-Stage方法，也优于传统的RANSAC+EPnP方法。

在LM上，我们通过大量ablation study验证了文章中的一些论点，很多发现还是比较有指导意义的，比如旋转和平移的表示方法，损失函数的设计，有无几何指导，与传统PnP/RANSAC或者其他基于学习的方法的对比等（更多细节详见论文）。

总之，通过合理的设计，以及加上几何指导方法的加持，我们的方法可以将直接回归的方法做到当前最优的效果。

另外，我们在更具挑战性的LM-O和YCB-V数据集上也达到了SOTA的性能。

总结

在这项工作中，我们重新审视了直接6D姿态回归的成分，并提出了一个新的GDR-Net来统一直接法和基于几何的间接方法。关键思想是利用中间几何特征，将2D-3D对应关系组织成类似图像的2D patch，使得我们可以利用简单而有效的2D卷积Patch-PnP从几何引导直接回归6D姿态。该方法实现了实时、准确、鲁棒的单目6D物体姿态估计。在未来，我们希望能将扩展到更具挑战性的场景，例如缺乏真实标注数据的场景和未见过的类别或实例等。

相关资料

论文链接：

https://arxiv.org/pdf/2102.12145.pdf

代码链接：

https://github.com/THU-DA-6D-Pose-Group/GDR-Net

上一篇： PnP算法原理举例及解释 pnn算法
下一篇： CFNet:三维激光雷达与相机自动在线外部校准方法

网站首页 > 技术文章正文

清华大学王谷为大家分享自己的研究工作——GDR-Net

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

清华大学王谷为大家分享自己的研究工作——GDR-Net

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: