计算机系统应用教程网站

网站首页 > 技术文章 正文

最新开源!Topo2D:利用2D车道线先验增强3D车道线检测和拓扑推理

btikc 2024-09-03 11:26:06 技术文章 10 ℃ 0 评论

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

3D车道检测,专注于检测车道的准确位置,是高级驾驶辅助系统(ADAS)应用中的关键组件之一。随着ADAS技术的发展和进步,更高层次的辅助驾驶功能(如自动驾驶导航)的出现,逐渐将车道感知的需求从3D车道检测转移到在线高清(HD)地图构建。除了检测车道段外,在线HD地图构建还需要识别其他静态交通元素,如交通信号灯和路标,以及车道段之间以及车道与交通元素之间的拓扑关系。

无论是3D车道检测任务还是在线HD地图构建,检测3D车道都是至关重要的组件。最近的基于视觉的车道检测方法主要可以分为两类。第一类流程侧重于保留2D图像特征,利用预定义的3D车道锚点(或查询)与2D特征之间的交互来进行最终预测。例如,Anchor3DLane初始化各种3D车道锚点,并使用相机参数将它们投影到2D特征上,随后通过双线性插值提取特征。其他方法,如MapTR,则明确构建鸟瞰图(BEV)特征。它们在相同的BEV空间中定义3D车道查询,并使用注意力机制进行特征聚合。

尽管这些方法取得了显著的性能,但它们都在3D空间中建立车道锚点,而忽略了2D车道先验。在本文中,我们提出了一种新的框架,该框架利用2D车道先验来提高车道检测的性能。我们没有采用在3D空间中初始化的3D查询,而是将2D车道解码器获得的2D车道实例用作3D查询。这一策略基于一个观察结果:在2D图像空间内进行车道检测通常比3D检测具有更高的召回率。我们在OpenLane-V2数据集上进行了实验,比较了MapTR和我们的方法在2D和3D空间中的召回率。如图1c所示,我们的发现表明,直接在图像空间中检测2D车道比MapTR高出12%(78% vs. 66%)的召回率。通过整合2D先验,我们的方法在3D召回率上优于MapTR。

在拓扑推理任务中,引入2D车道先验的好处也得到了证明。现有方法通常使用两个3D查询,并通过它们的串联特征来推断拓扑结构。然而,一方面,2D车道的位置关系为建立3D车道之间的拓扑关系提供了额外的信息。另一方面,由于交通元素是在图像中检测的,车道和交通元素的拓扑预测需要结合2D车道位置。在我们的框架中,我们明确地将2D车道特征整合到拓扑关系的预测中。

我们提出的框架Topo2D通过整合2D车道先验信息,增强了车道检测和拓扑推理能力。2D和3D车道检测器采用类似的基于Transformer的架构。对于3D车道检测,我们使用2D车道解码器获得的2D车道查询特征和2D坐标来初始化3D车道查询和位置嵌入。对于拓扑预测,我们采用了一种综合方法,不仅涉及3D车道和交通元素的特征,还融合了相应的2D车道特征,从而提高了整体性能。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Enhancing 3D Lane Detection and Topology Reasoning with 2D Lane Priors

作者:Han Li, Zehao Huang, Zitian Wang, Wenge Rong, Naiyan Wang, Si Liu

机构:北京航空航天大学、图森未来

原文链接:https://arxiv.org/abs/2406.03105

代码链接:https://github.com/homothetic/Topo2D

2. 摘要

在自动驾驶场景中,3D车道检测和拓扑推理是至关重要的任务,不仅需要检测车道线上的准确3D坐标,还需要推理车道与交通元素之间的关系。目前的基于视觉的方法,无论是否明确构建BEV特征,都在3D空间中建立车道锚点/查询,而忽略了2D车道先验。在本研究中,我们提出了Topo2D,一个基于Transformer的新颖框架,利用2D车道实例来初始化3D查询和3D位置嵌入。此外,我们明确地将2D车道特征融入车道中心线之间以及车道中心线与交通元素之间的拓扑关系识别中。Topo2D在多视图拓扑推理基准OpenLane-V2上实现了44.5%的OLS,在单视图3D车道检测基准OpenLane上实现了62.6%的F-Score,超过了现有最先进方法的性能。代码已发布在https://github.com/homothetic/Topo2D。

3. 效果展示

(a) 以往的方法在3D空间中随机初始化3D车道查询。(b)我们的方法在给定的2D车道先验基础上初始化3D车道查询。(c) 在不同阈值下的车道检测召回率比较。在2D召回率和3D召回率方面,我们的模型相对于基线MapTR在各种阈值下均显示出显著的进步。

4. 主要贡献

总的来说,我们的贡献可以概述如下:

(1)我们提出了使用2D车道先验信息来初始化3D车道查询和位置嵌入的方法,从而增强了3D车道感知性能。

(2)我们明确利用2D车道信息来辅助模型更好地识别车道中心线之间的拓扑关系以及车道中心线与交通元素之间的拓扑关系。

(3)我们在多视图拓扑推理基准OpenLane-V2和单视图3D车道检测基准OpenLane上验证了Topo2D的性能。Topo2D在这两个基准上都达到了最先进的性能。

5. 基本原理是啥?

图2展示了所提出的Topo2D的总体架构。Topo2D可以在单个流程中解决多个任务,包括车道检测、交通元素检测、车道到车道的拓扑预测以及车道到交通元素的拓扑预测。

给定来自NI个相机视角的多视角图像I =Ii ∈ R3×HI×WIi = 1, 2, ..., NI,这些图像被输入到骨干网络(例如ResNet-50)和FPN中以提取多视角多层次的2D特征F =Fvi ∈ RC×HvF×WvFi = 1, 2, ..., NI; v = 1, 2, ..., V,其中V是FPN的层级数。

车道检测器包括两个阶段,即2D车道检测和3D车道检测,并最终输出固定数量的3D车道实例Li ∈ RNP×3i = 1, 2, ..., l,其中NP是每个实例的点数。交通元素检测器基于Deformable DETR,从前置相机视角生成交通元素的2D边界框Ti ∈ R4i = 1, 2, ..., t。基于MLP的拓扑预测头接收检测器提取的特征来预测车道之间的连接性Gll ∈ Rl×l以及交通元素与车道之间的指示关系Glt ∈ Rl×t。具体细节将在后续章节中描述。

6. 实验结果

我们首先比较了拓扑推理任务的性能。表1展示了在OpenLane-V2的subset_A子集上的结果。我们的Topo2D在使用ResNet-50进行24个周期的训练时,达到了44.5%的OLS,超过了其他最先进的方法。在拓扑相关指标方面,与TopoNet相比,我们在TOPll上实现了11.4%的提升,在TOPlt上实现了2.4%的提升。

值得注意的是,一些之前的多视图3D车道检测方法选择使用Chamfer距离来评估无序车道检测的性能。为了进行更全面的比较,我们还提供了在相同评估协议下的中心线检测任务的比较,如表2中的DETl,chamfer所示。Topo2D在没有拓扑预测的训练下,与MapTR相比在DETl,chamfer上实现了10.7%的提升,与具有拓扑推理的TopoNet相比实现了5.0%的提升。

我们进一步研究了为什么我们的方法在DETl,chamfer上相比DETl实现了更高的提升。DETl基于Fréchet距离,将车道视为有向线,而DETl,chamfer使用Chamfer距离,将车道视为点的集合。DETl对每个点的位置更加敏感,尤其是起点和终点。例如,远处的车道(图4b中的橙色框)在2D图像中通常占据较少的像素,这可能导致预测的3D车道与真实车道对齐良好,但起点/终点不太精确。对于这些车道,基于Fréchet距离的度量更容易将它们视为假阳性,而基于Chamfer距离的度量则不然。

我们在表3中展示了OpenLane验证集上的主要结果。与最先进的LATR方法相比,Topo2D在F-Score上提高了0.7%,在类别准确率上提高了2.0%,同时x/z误差(±1.5cm)相近,这展示了Topo2D在准确检测3D车道方面的性能。此外,我们还在补充材料中提供了不同场景下的性能比较。

7. 总结

本文提出了一种新的车道检测和拓扑推理框架Topo2D。通过基于二维车道先验初始化三维车道查询,三维车道检测器学习了更全面的图像特征,实现了更高的检测召回率。我们进一步将二维车道特征明确地融入到拓扑结构的预测中。实验结果表明,我们的Topo2D在多视图拓扑推理基准OpenLane-V2和单视图三维车道检测基准OpenLane上均优于先前的最先进方法。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等


本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表