作者:泡椒味的口香糖 | 来源:3DCV
在公众号「3DCV」后台,回复「原论文」获取论文
添加v:dddvision,备注:特征匹配,拉你入群。文末附行业细分群
0. 这篇文章干了啥?
一句话总结:探索了LoFTR等半稠密无检测器方案建立匹配关系的能力与所得到的估计姿态的质量之间的联系。
图像匹配性能,目前主要使用相对或绝对相机姿态估计、三维重建等任务来评估。这篇文章首次探索了二者之间的联系。并得到了一个反直觉的结果:一方面,图像匹配架构在姿态/单应估计度量方面要么优于半密集无检测器方法方法,要么与之相媲美,但另一方面,半密集无检测器方法方法在匹配精度方面明显优于图像匹配架构。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Are Semi-Dense Detector-Free Methods Good at Matching Local Features?
作者:Matthieu Vilain, Rémi Giraud, Hugo Germain, Guillaume Bourmaud
机构:波尔多大学
原文链接:https://arxiv.org/abs/2402.08671
代码链接:暂未开源
2. 摘要
半密集无检测器方法(SDF),如LoFTR,目前是最流行的图像匹配方法之一。虽然SDF方法是为了建立两个图像之间的匹配关系而进行训练的,但它们的性能几乎完全是使用相对姿态估计度量进行评估的。因此,迄今为止,它们建立匹配关系的能力与所得到的估计姿态的质量之间的联系受到了很少的关注。本文是对这一关系进行的首次尝试。我们首先提出了一种新的基于结构化注意力的图像匹配架构(SAM)。它使我们能够在两个数据集(MegaDepth和HPatches)上展示一个反直觉的结果:一方面,SAM在姿态/单应估计度量方面要么优于SDF方法,要么与之相媲美,但另一方面,SDF方法在匹配精度方面明显优于SAM。然后,我们建议将匹配精度的计算限制在纹理区域,并且证明在这种情况下,SAM通常超过SDF方法。我们的发现突显了在纹理区域建立准确对应关系的能力与所得到的估计姿态/单应的准确性之间存在着强烈的相关性。我们的代码将会提供。
3. 效果展示
给定源图像(左侧)中纹理区域内的查询位置,展示它们在目标图像(右侧)中的预测匹配:(顶行)SAM- 结构化基于注意力的图像匹配,(底行)LoFTR+ QuadTree- 半密集的无检测器方法。
作者展示了:(MA@2)- 在源图像的所有半密集位置上计算的2像素匹配精度(包括纹理和均匀区域),(MAtext@2)- 在源图像的所有纹理半密集位置上计算的2像素匹配精度(忽略均匀区域),(errR 和 errT)- 相对姿态误差。SAM 具有更好的姿态估计,但匹配精度(MA@2)较低,这似乎违反直觉。然而,如果只考虑纹理区域(MAtext@2),那么 SAM 要优于 LoFTR+QuadTree。
对学习到的SAM隐向量进行可视化。 平均查询图是通过对64个查询位置(红×)的64个对应图进行平均得到的,平均潜在图是通过对128个学习到的潜在向量的128个对应图进行平均得到的。结果显示,平均查询图主要在匹配区域周围被激活,而这些区域在平均潜在图中被激活的程度较低。
4. 主要贡献
(1)首次提出了一种新颖的基于结构化注意力的图像匹配架构(SAM)。在3个数据集(MegaDepth - 相对姿态估计和匹配、HPatches - 单应性估计和匹配、ETH3D - 匹配)上评估了SAM和6种SDF方法。
(2)在两个数据集(MegaDepth和HPatches)上强调了一个反直觉的结果:一方面,SAM在姿态/单应性估计指标方面要么优于SDF方法,要么与其相当,但另一方面,在匹配准确性(MA)方面,SDF方法明显优于SAM。这里的MA是在所有半密集位置(源图像)上计算的,其中有可用的地面真实对应,包括纹理和均匀区域。
5. 具体原理
提出的基于结构化注意力的图像匹配(SAM)方法概述。 (a)匹配架构首先从源图像和目标图像中提取特征,分辨率为1/4。然后,它使用一组学习到的潜在向量以及查询位置的描述符,并对目标的密集特征执行输入结构化交叉注意力。然后,潜在空间通过一系列结构化自注意力层进行处理。输出结构化交叉注意力被应用于使用潜在空间信息更新目标特征。最后,使用点积获得对应关系图。(b)提出的结构化注意力层。
6. 实验结果
结构化注意力的可视化。 在输出交叉注意力之前计算视觉位置图和位置图。红×代表了真实与真实的对应关系。蓝色和绿色交叉分别是视觉位置图和位置图的极大值。可以看到,视觉位置地图是高度多模态的(对重复结构敏感),而位置地图几乎是单模态的。
在MegaDepth1500上的评估。报告了几个阈值η的匹配精度(6),该精度是在所有半稠密查询位置(源网格,步幅为8)上计算的,以及在源图像的纹理区域内仅包含查询位置的子集(MAtext)。关于姿态估计指标,报告了5、10和20度的经典AUC。所提出的SAM方法在姿态估计方面优于SDF方法,而SDF方法在MA方面显着优于SAM。然而,当忽略均匀区域时(MAtext),SAM经常超越SDF方法。这些结果突显了在纹理区域建立精确对应关系的能力与估计姿态的准确性之间的强相关性。
对HPatches数据集的评估。 针对多个阈值η报告匹配准确率(6),该准确率是在所有半稠密查询位置(源网格,步长为8)上计算得出的。关于单应矩阵估计指标,报告了3、5和10像素处的经典AUC。所提出的SAM方法在单应矩阵估计方面与SDF方法持平,而在MA方面,SDF方法明显更好。然而,当忽略均匀区域(MAtext)时,SAM与SDF的性能相匹配。
对ETH3D在不同的帧间隔采样率r上进行评估。 报告了匹配精度(6)对几个阈值η的计算结果。对于ETH3D,真值对应物是基于运动轨迹结构的。因此,MA已经忽略了源图像的无纹理区域,这就解释了为什么SAM能够优于SDF方法。
7. 总结
这篇文章提出了一种新颖的基于结构化注意力的图像匹配架构(SAM)。这种新颖架构的灵活性能够公平地将其与SDF方法进行比较,即在所有实验中,都使用相同的查询位置(步幅为8的源网格)。实验结果突显了两个数据集(MegaDepth和HPatches)上的一个反直觉结果:一方面,SAM在姿态/单应性估计度量方面要么优于SDF方法,要么与其持平;另一方面,SDF方法在匹配准确度(MA)方面明显优于SAM。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
专业!3D视觉视频课程
3D视觉工坊精品课程官网:3dcver.com
我们的3D视觉学习平台包含:相位偏折术、面结构光高阶、结构光、机械臂抓取、工业点云实战、Open3D、深度学习缺陷检测、3D缺陷检测、BEV&Occ、Transformer、模型部署、3D目标检测、单目深度估计、车载标定、规划与控制、无人机、三维视觉C++、三维视觉python、dTOF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、激光-视觉-IMU-GPS融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。
本文暂时没有评论,来添加一个吧(●'◡'●)