计算机系统应用教程网站

网站首页 > 技术文章 正文

最新成果!极坐标-点云梦幻联动,实现3D目标检测的最佳性能

btikc 2024-09-06 18:01:30 技术文章 10 ℃ 0 评论

作者:大森林 | 来源:3DCV

在公众号「3DCV」后台,回复「原论文」可获取论文pdf

添加v:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群

近年来,基于极坐标的表示方法在感知任务中表现出良好的应用前景。我们介绍了一种新型的极坐标三维物体探测器PARTNER。我们的方法在Waymo和ONCE验证集上分别以3.68%和9.15%的显著优势优于以前的基于极坐标的工作,并且获得了与最先进笛卡尔坐标系方法相当的结果。

1. 极坐标方法的优势

由于点云本身是不均匀分布的,靠近传感器的区域点云密度明显大于远处区域。采用笛卡尔坐标系表示 (例如体素化)时,为了控制内存消耗,需要选择合适的分辨率,这会导致近处区域丢失细节信息。

而极坐标表示天然地适应点云密度分布的属性,近处使用较高分辨率,远处使用较低分辨率,这样可以平衡不同距离区域的点云数量,提高特征表达的稳健性。所以,极坐标本身不会引入新的不均匀性,而是充分利用点云自身的特点来获得更好的特征表达。

图1 极坐标表示的优越性。实验在Waymo val.set上进行。(a)不同体积表示之间的性能比较。当放大3D检测器CenterPoint的体素大小时,用基于极坐标的体素替换立方体形状的体素可以显著降低性能下降,表明极坐标表示的准确性和稳健性。(b)基于流的体系结构中的性能。我们的PARTNER超过了最先进的检测器PolarStream。

综上所述,将点云表示为极坐标网格具有以下两个优势:(1)它在不同分辨率下具有鲁棒性能的优势,(2)它在基于流的方法中的优势。

2. 极坐标方法面临的问题

如图2所示,由于极坐标表示的不均匀划分,即使是不同范围和方向的相同物体也会呈现出不同的扭曲外观,导致物体之间的全局失准,以及基于极坐标的3D探测器的回归困难。另外,由于3D检测还需要回归目标的边界框,对极坐标表示中的特征失真问题带来了更大挑战。

图2 极坐标和笛卡尔坐标特征失真的示例。点云不均匀性导致极坐标失真,笛卡尔坐标在其基础上又引入了额外的不均匀性,导致其本身失真更严重。

为了解决这个问题,我们介绍了一种新型的极坐标三维物体探测器PARTNER。PARTNER通过在检测头中引入实例级几何信息,缓解了特征失真与全局表示重新对齐的困境,并促进了回归。大量的实验表明,在基于流的检测和不同的分辨率方面具有压倒性的优势。

3. 方法详解

我们首先在3.1中介绍了整体架构。然后,我们详细讨论PARTNER中的两个关键组件:3.2中的全局表示再对齐模块和3.3中的几何感知自适应模块。

3.1. 总体架构

对每个3D场景,PARTNER以由个点组成的点云为输入。每个激光雷达点用一个点特征向量表示,其中,,是笛卡尔坐标, 是极坐标, 是反射强度。

PARTNER由四个部分组成:

  1. 基于栅格的3D骨干网络,从稀疏点特征中压缩得到稠密的BEV特征图

  2. 全局表示对齐模块,对代表性特征应用自注意力进行特征对齐

  3. 2D FPN骨干网络进行特征聚合

  4. 几何感知自适应模块,在检测头之前引入几何线索和实例信息

图3 总体架构图。3D主干将光栅化的点云作为输入,并为3D场景生成鸟瞰图(BEV)特征图。全局表示重新对齐模块引入了代表性特征和相应列之间的交叉注意,以及代表性特征之间的自注意,以重新对齐特征表示。最后,在2D FPN主干之后,几何感知自适应模块在两个辅助任务的帮助下将几何线索引入到特征聚合过程中,检测头产生预测结果。

3.2. 全局表示对齐模块

全局表示对齐模块运用注意力机制对代表性特征进行非局部对齐。该设计基于以下观察:极坐标中空间分辨率随距离变化。具有这种差异,两个不同距离范围内相同的物体可能占用不同数量的像素,这导致极坐标表示中的特征失真问题。

为此,全局表示对齐模块包含两种注意力子模块:

  • 密集注意力,用于列特征压缩

  • 角度注意力,用于特征对齐

密集注意力

如图3所示,提出的凝缩注意力以3D backbone输出的BEV特征为输入,其中R和A分别表示径向和方位角空间的分辨率,C表示特征通道数。为了选择代表性特征,首先对径向方向进行1D局部最大值滤波操作:

其中maxfil是一个在S×1邻域内寻找局部最大值的操作,防止后续选择操作选择表示同一对象的特征。该滤波操作保持代表性特征的多样性,不引入背景像素的噪声。然后我们可以得到每列的关键特征索引:

其中表示第i列中分数最高的N个像素的索引。这个topk操作利用了数据先验:在极坐标BEV图中,沿径向方向的像素对应一个小的扫描角度。每列的信息由于对象之间的遮挡效应而有限,并且集中分布在对象或物体上。因此,选中的像素通常表明3D对象在3D场景中可能出现的位置,可以看作是该列的代表性查询像素。引入这些代表性特征避免了背景区域引入的噪声和计算开销,并保持了距离方面的对象特征的多样性。之后,我们将每列压缩为其代表性特征。令,,,,分别为第i列的查询和参与特征,为它们在极坐标和笛卡尔坐标中的真实像素中心坐标。对于第i列,我们进行点积注意力计算:

其中,,是查询、键、值的线性投影,是整列的索引,是相对位置编码的函数:

对每一列执行交叉注意力以得到压缩特征图用于后续的对齐操作。

角度注意力

有了上述压缩的代表性特征,角向注意力在代表性特征上使用自注意力实现全局再对齐。这个设计基于以下观察:远处的特征编码区域远大于附近的特征。因此,在方位角上引入合适的感受野对于远处特征访问足够的附近特征进行再对齐非常必要,同时不引入太多的计算开销。基于这个先验,我们引入了具有窗口平移的局部窗口注意力。压缩特征图首先被划分成不重叠的窗口,其中窗口大小设置为。对于第i个窗口中的特征,按照公式(3)和(4)进行自注意力计算。在角向注意力之后,模块对和F应用反向密集注意力,将再对齐的代表性特征广播到BEV图的每一列。令,,,,分别为查询和参与特征,交叉注意力的公式与(3),(4)相同。

我们的模型采用两个堆叠的模块进行信息交互,其中第二个角向注意力使用平移后的窗口划分。与Swin Transformer 中的平移机制略有不同,窗口直接滚动而不乘以注意力掩码,这是由于极坐标BEV图中最左边的列与最右边的列之间本身就有连接。

3.3. 几何感知自适应模块

图4 几何感知自适应模块的整体架构。几何感知预测模块以2D BEV特征为输入,预测前景分割和中心回归结果。几何感知聚合模块将预测的线索与位置线索及BEV特征处理通过MLP,产生查询、键、值图。然后应用两个堆叠的多头窗口注意力。

我们首先研究极坐标框架对检测头的潜在缺点。极坐标中空间分辨率随距离变化,带来以下问题:1) 特征模糊,远距离场景表示为低分辨率,难以区分靠近的物体;2) 形状变化,由于不同距离和朝向的物体出现不同的失真,传统的卷积回归头容易失败。这两方面问题都会导致极坐标探测器的回归困难。

为解决这些挑战,我们提出几何感知自适应模块,这是一个可插拔模块,部署在检测头之前。该模块区分不同实例的特征,并将实例信息和几何线索明确引入特征聚合过程。模块包含:

  • 几何感知预测:利用辅助监督分支预测前景分割和中心回归,作为几何线索

  • 几何感知聚合:将预测的线索与BEV特征一起输入到自注意力中,引入实例几何信息指导特征聚合

几何感知预测

为获得细粒度的实例和几何信息,我们利用两个预测分支的辅助监督:前景分割分支和回归分支。具体而言,两个分支都以2D backbone产生的BEV特征作为输入。分割分支生成一个热力图。令对应的目标图,为真值对象的BEV边界框(x, y, w, h, θ)。目标图可形式化为:

其中中的第i个像素,是第i个像素的中心坐标。然后,该分支可以用Focal Loss进行优化:

其中

回归分支预测前景像素与其对应实例中心的相对距离。令分别为预测的回归图及其对应的目标图,为真值对象的中心,其中每个中心由笛卡尔坐标和极坐标(ρ_i, φ_i)表示。目标图可形式化为:

对于属于两个或多个实例的像素,我们随机选择其所属的实例。该分支用Smooth-l1损失进行优化:

该模块的输出可以看作实例级的几何线索,这些线索应该有助于解决占用面积差异和特征模糊的问题。然而,我们发现辅助监督本身并没有为极坐标检测器带来性能提升。为解决这个问题,我们进一步提出几何感知注意模块来充分利用预测信息。

几何感知聚合

该子模块利用自注意力机制和全局坐标中的像素位置先验来预测实例级几何信息。该提出的模块以BEV特征图和几何感知预测模块的输出为输入。我们首先从几何线索和真实世界的位置线索计算几何感知嵌入图:

然后,我们将划分成不重叠的大小为的窗口。令分别为第i个窗口中的特征,则查询,键和值的计算如公式(11)。

之后,自注意力可形式化为公式(12),我们获得窗口聚合特征:

与全局表示对齐模块类似,我们堆叠两个几何感知聚合模块与窗口平移一起使用,以扩大感受野。

有了几何引导的自注意力,该模块可以利用实例和几何线索进行特征聚合和学习,为后续头产生具有丰富先验的特征。

3.4. 检测头设计

为简单起见,任务头的设计遵循CenterPoint 。为展示我们方法的可拓展性,我们在主要实验中也修改了CenterFormer 的任务头。我们使用smooth-l1优化预测的框参数和分类分数的Focal Loss。此外,受RangeDet 的启发,我们添加了一个IoU回归头来预测边界框与最佳匹配的真值注释之间的IoU,其也以smooth L1损失进行监督。在评估时,预测的置信度得分与回归结果对齐,按照 α,其中α设为1。检测头的总损失可公式化为:

其中,, 是平衡各个损失的系数,在Waymo模型上被设置为[2,1,0.75,2],在ONCE模型上被设置为[0.75,1,0.75,2]。

4. 实验

与之前方法的比较表明,我们的方法在L1和L2难度下都优于现有的基于极坐标和笛卡尔坐标的检测器。在流式检测中,我们的方法也优于所有之前的状态最先进的方法。在不同分辨率下,与笛卡尔坐标表示相比,极坐标表示更加稳健,而我们的方法进一步改善了这一优势。

在ONCE数据集上,我们的方法也取得了优于基于笛卡尔坐标和极坐标的检测器的优势。这表明我们方法的有效性和泛化能力。

4.1. 在Waymo数据集的实验

表1 Waymo验证集上3D目标检测的性能比较,针对车辆检测。我们展示L1/L2难度级别下的mAP/mAPH。

表2 在不同分辨率下(从1x到5x)Waymo验证集上车辆检测的性能。

表3 Waymo验证集上流式检测的性能,针对车辆检测。我们展示L2下6个epochs的结果。

图5 在Waymo验证集上比较不同方法的检测结果与延迟。

4.2. 在ONCE数据集的实验

表4 ONCE验证集上3D目标检测的性能比较。

4.3. 消融实验

消融实验表明,全局表示对齐模块和几何感知自适应模块分别带来显著的性能提升。可视化也证明了全局表示对齐模块重新对齐了前景特征。

表6 PARTNER中不同组件的效果。我们展示Waymo验证集上的12个epochs结果,针对车辆检测。

表7 在笛卡尔坐标和极坐标上分别应用GRR的效果。我们展示Waymo验证集上12个epochs的结果,针对车辆检测。

图6 使用t-SNE可视化GRR模块前后的特征。蓝点是前景,红点是背景。

表8 GA模块中不同设计的比较。我们展示Waymo验证集上的12个epochs结果。

图7 在Waymo开放数据集上的检测结果可视化。绿框是真值框,红框是预测结果。

图8 在ONCE数据集上的检测结果可视化。绿框是真值框,红框是预测结果。

5. 总结

我们重新分析了极坐标表示中的特征失真问题,并提出了一种新颖的雷达检测器PARTNER。PARTNER通过全局表示对齐和将实例级几何信息引入检测头来减轻特征失真的问题。结果表明,我们的方法大幅度超过之前的基于极坐标的工作,在流式和不同分辨率场景下展现出压倒性的优势,并与最先进的基于笛卡尔坐标系的方法相媲美。


Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表