计算机系统应用教程网站

网站首页 > 技术文章 正文

清华大学王谷为大家分享自己的研究工作——GDR-Net

btikc 2024-09-30 13:08:12 技术文章 13 ℃ 0 评论

本期AI TIME PhD直播间,我们邀请到清华大学自动化系在读博士生王谷,来给大家分享他的研究工作——GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation


王谷:


清华大学自动化系在读博士生,师从季向阳教授,主要研究方向为6D物体姿态估计。研究成果曾发表于ECCV/ICCV/CVPR/IJCV等(多次入选口头报告),曾获BOP Challenge 2019/2020单赛道冠军。

个人主页: https://wangg12.github.io/


01

摘要


基于单张RGB图像的6D物体姿态估计是计算机视觉中的一项基本任务。目前性能最好的基于深度学习的方法依赖于一种间接策略,即首先建立图像平面坐标与目标坐标系的2D-3D对应关系,然后应用PnP/RANSAC算法的某种变体。然而,这类两阶段的方法不是端到端可训练的,因此很难用于许多需要可微位姿的任务。另一方面,基于直接回归的方法目前相比于基于几何的间接方法逊色许多。在这项工作中,我们对直接和间接方法进行了深入研究,并提出了一种简单而有效的几何指导的直接回归网络(GDR-Net),以端到端的方式从基于密集对应关系的中间几何表示中学习6D姿态。大量的实验表明,本文提出的方法在LM, LM-O和YCB-V数据集上显著优于当前最先进的方法。



02

核心贡献


通过引入间接法中基于稠密2D-3D对应关系的几何特征,作为指导直接回归6D姿态的中间特征,从而将学习稠密对应关系和回归6D姿态用一个端到端的网络统一起来。其核心是我们回归的稠密几何特征可以被表达成类似图像块的规则2D特征图,因此可以用很简洁但很高效的2D卷积加全连接层拟合不可微分的PnP/RANSAC。


此外,我们还深入探究了直接6D姿势回归中的关键成分,并观察到,通过为姿势参数选择适当的表示,与最先进的基于对应的间接方法相比,基于直接回归的方法也能表现出具有竞争力的性能。


03

方法概览



给定一个RGB图像I,GDR-Net将放大后的RoI(训练时使用动态放大策略,测试时使用现成的检测器)作为输入,并预测几个中间几何特征。然后,Patch-PnP直接从密集对应关系(M2D-3D)和表面区域注意(MSRA)回归6D物体姿态。


04

实验结果


在合成球上的toy实验,说明在噪声等级增加时,Patch-PnP在鲁棒性和准确率上均优于基于稀疏对应关系+PointNet的Single-Stage方法,也优于传统的RANSAC+EPnP方法。



在LM上,我们通过大量ablation study验证了文章中的一些论点,很多发现还是比较有指导意义的,比如旋转和平移的表示方法,损失函数的设计,有无几何指导,与传统PnP/RANSAC或者其他基于学习的方法的对比等(更多细节详见论文)。

总之,通过合理的设计,以及加上几何指导方法的加持,我们的方法可以将直接回归的方法做到当前最优的效果。


另外,我们在更具挑战性的LM-O和YCB-V数据集上也达到了SOTA的性能。




05

总结


在这项工作中,我们重新审视了直接6D姿态回归的成分,并提出了一个新的GDR-Net来统一直接法和基于几何的间接方法。关键思想是利用中间几何特征,将2D-3D对应关系组织成类似图像的2D patch,使得我们可以利用简单而有效的2D卷积Patch-PnP从几何引导直接回归6D姿态。该方法实现了实时、准确、鲁棒的单目6D物体姿态估计。在未来,我们希望能将扩展到更具挑战性的场景,例如缺乏真实标注数据的场景和未见过的类别或实例等。


相关资料

论文链接:

https://arxiv.org/pdf/2102.12145.pdf


代码链接:

https://github.com/THU-DA-6D-Pose-Group/GDR-Net

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表