计算机系统应用教程网站

网站首页 > 技术文章 正文

目标检测的分类与局限

btikc 2024-09-11 01:33:04 技术文章 11 ℃ 0 评论

摘要

现代基于 R-CNN 的检测器采用检测头提取感兴趣区域(RoI)特征,用于分类和定位任务。相反,我们发现这两个任务对两种广泛使用的检测头结构(即全连接检测头和卷积检测头)有相反的偏好。具体来说,全连接检测头更适合分类任务,卷积检测头更适合定位任务。因此,我们提出了一种双检测头方法,该方法有一个以分类为中心的全连接检测头和一个以边界回归为中心的卷积检测头。

同时,通过分析两种检测头的输出特征,全连接检测头的空间敏感度比卷积的更高。因此,全连接检测头善于通过物体的部分特征而推断出物体的类别,但对于物体的定位没有鲁棒性。基于大量观察及实验分析,作者提出一种双检测头结构:全连接检测头用于目标分类,卷积检测头用于目标定位。

引言

大多数两阶段目标检测算法的分类和回归任务共用一个检测头。例如 Faster R-CNN 中使用的是卷积的检测头,FPN 中使用的是全连接的检测头。但其实,不同的检测头对不同的任务具有不同的敏感度。在论文中,作者通过比较大量全连接检测头卷积检测头,提出这两种检测头是互补的:全连接检测头更适于分类任务,卷积检测头更适用于回归任务。作者认为这是由于全连接检测头的空间敏感性,针对候选区域的不同部分给出不同的响应;而卷积检测头在候选区域的所有部分都共享参数。作者通过对两种检测头的输出特征图进行分析,得到全连接检测头的空间敏感度更高。即,全连接检测头更擅长区分一个完整的物体或物体的一部分(对应于分类任务);卷积检测头更擅长回归整个物体(对应于回归任务)。如下图分别是全连接检测头和卷积检测头

相关工作

一阶段检测算法:OverFeat 通过在特征贴图上的滑动窗口来检测对象,SSD 和 YOLO 通过直接预测对象类和位置来提升检测速度,RetinaNet 通过引入焦点损失来减轻极端的前景-背景类不平衡问题,基于关键点的一阶段目标检测算法将一个对象建模为单个点或一组关键点并建立关键点估计网络。

二阶段检测算法:RCNN 应用了一个深度神经网络来提取由选择性搜索生成案例的特征。SPPNet 通过使用空间金字塔池化显著加快了 RCNN 的速度。FastRCNN 通过使用可区分的 RoI 池化,提高了速度和性能。FasterRCNN 将区域建议网络(RPN)引入到网络中。R-FCN 使用对位置敏感的 RoI 池化来解决转换可变问题。FPN 构建一个具有横向连接的自顶向下体系结构进行多层检测。

主干网络:FastRCNN 和 FasterRCNN 从 VGG-16 中的 conv4 提取特性,而 FPN 则利用了 ResNet 多层(conv2 到 conv5)的特性。提出了可变形的卷积和可变形的 RoI 池化,以增加空间采样位置。 Trident Net 使用多分支架构生成具有规模感知的特征图。MobileNet 和 ShuffileNet 引入了高效的操作符,以加快移动设备上的速度。

检测头:Light-Head RCNN 引入了一个高效的具有特征图的检测头网络。Cascade RCNN 构造了一系列通过增加 IoU 阈值来训练的检测头。Mask RCNN 为实例分割引入了一个额外的头。IoU-Net 引入一个分支来预测检验边界和真实值之间的 IoU。与 IoU-Net 类似,Mask Scoring RCNN 提供了一个额外的检测头来预测每个分段掩码的 MaskIoU 得分。与现有的利用检测头提取 RoI 特征进行分类和边框回归的方法不同,我们提出将这两个任务分割成不同的检测头。

双检测头方法

1.动机与假设

直观地说,我们认为卷积检测头更适合于边框回归,即使没有实例分割的帮助。这是因为卷积检测头能够捕获整个对象的上下文,这对于从提案中细化边界框是至关重要的。相比之下,对空间敏感的全连接检测头,非常适合对象分类。与图像分类不同,对象分类需要考虑对象在边框中是否完整,这同时需要上下文和空间信息。

鉴于上面讨论的动机,我们有一个假设:全连接检测头更适合对象分类,而卷积检测头更适合对象定位。

为了验证这一假设,我们提出了一种新的双检测头设计,它包括在一个共享的主干网络上的一个全连接检测头和一个用于边框回归的卷积检测头。为了完成比较,我们引入了双检测头转换操作,它可以在两个检测头之间切换任务。

经过测试,双检测头的性能比单检测头的探测器高出不可忽略的幅度(2.7+AP)。当转换两个检测头之间的任务时,AP 下降 7.5 点。这验证了我们的假设,即全连接检测头更适合分类,而卷积检测头更适合定位。接下来,我们将讨论双检测头设计。

\2. 网络结构

主干:我们使用 FPN 来生成区域,并使用 RoI 从多个层次提取对象特征。每个方案都有一个大小为 7×7×256 的特征图,由全连接检测头和卷积检测头转换为两个特征向量(每个有 1024 个维度),分别用于分类和边框回归。

全连接检测头具有两个全连接层,遵循 FPN 中的设计,输出尺寸为 1024。卷积检测头一共堆叠了 K 个残差模块,输出维度也为 1024。

两个检测头与 RPN 网络联合训练,总体损失函数计算如下:

3.双检测头扩展

在使用普通双检测头中,每个检测头都专注于其分配的任务(即全连接检测头中的分类任务和卷积检测头中的边框回归任务)。此外,我们发现全连接检测头中的边框回归任务和卷积检测头中的分类任务在两个方面有帮助:(a)边框回归为全连接检测头提供辅助监督;(b)两个头中的分类器是互补的。因此,我们在训练中引入了非聚焦任务监督,并提出了一种互补融合方法,用于在推理过程中合并来自两个头的分类分数,称为双检测头扩展方法。

实验

我们在 MS COCO 2014 数据集上评估了我们的方法,该集有 80 个对象类别,使用 80k 图像和 35k 图像组合作为训练集,基于 5K 图像进行。对象检测精度由标准的 COCO 平均精度(AP)测量,不同的 IoU 阈值从 0.5 到 0.95,区间为 0.05。我们进行消融实验来分析我们的方法,并将我们的方法与具有单一全连接检测头的原始 FPN 进行比较。

1.实现细节

我们的实现基于 Pytorch 1.02 中的 Mask R-CNN 基准。调整图像大小,使最短边为 800 像素。我们不使用数据增强进行测试,只使用水平翻转增强进行训练。具体实施情况如下:

架构:我们的方法是在两个在 ImageNet 上预训练的 FPN 主干(ResNet-50 和 ResNet-101)上进行评估。标准的 RoI 池化被 RoIAlign 所取代。两个检测头和 RPN 都是共同训练的。主干网中的所有 BN 层都被冻结。卷积检测头中的每个卷积层之后都是一个 BN 层。

超参数:所有模型都用 4NVIDIAP100GPU 训练,16GB 内存,batch_size 为 2。权重衰减为 0.0001,momentum 为 0.9。

学习率:所有模型都经过 180K 次迭代。学习率用 0.01 初始化,120K 迭代后降到 0.001,160K 迭代后降到 0.0001。

2.消融实验

我们在 ResNet-50 网络上进行多次测试,来分析我们的双检测头方法。

对于卷积头的两种变化的块的数量(有或没有非局部块),第一组有 K 个残余块,而第二组有交替的(K+1)/2 个残余块和(K?1)/2 个非局部块。我们观察到,一个卷积检测头中的块在 FPN 基线略小于 FPN。然而,从 2 个卷积块开始,性能大幅提高(比 FPN 基线增加 1.9AP)。随着数据块数量的增加,其性能会随着增长速度的降低而逐渐提高。

我们研究了三种不同的方法来融合推理过程中来自全连接检测头和卷积检测头的分类分数:(a)平均值、(b)最大值和(c)互双检测头补融合。与单独使用全连接检测头的分数相比,所提出的互补融合方法的性能更高。

3.与 Faster R-CNN 和 FPN 比较

我们将双检测头方法与 Faster R-CNN 和 FPN 在 ResNet-50 和 ResNet-101 上进行了比较。我们的方法有双检测头和扩展双检测头两种,这两种都有三个残余块和两个非局部块。双检测头方法的权值设置为 λfc=1 和 λconv=1。对于扩展双检测头方法,权值设置为 λfc=0.7 和 λconv=0.8。

我们的方法在所有的评估指标上都优于 FPN 和 Faster R-CNN。与 FPN 相比,我们的方法在 ResNext-50 和 ResNet-101 上分别获得了 3.5 和 2.8 的 AP。我们的方法在高 IoU 阈值(0.75)获得 3.5+AP,在低 IoU 阈值(0.5)获得 1.4+AP。这证明了我们的双头处理方法的优点。

我们还观察到,当使用 ResNet-101 时,Faster R-CNN 和 FPN 对对象尺度有不同的偏好:Faster R-CNN 在中大物体上有更好的 AP,而 FPN 在小物体上更好。但即使与 FPN 和 Faster R-CNN 的最佳性能相比,我们的扩展双检测头方法在小物体上获得了 1.7 个 AP,在中等物体上获得了 2.1 个 AP,在大物体上获得了 2.5 个 AP。由于利用了全连接检测头在分类上的优势和卷积检测头在定位上的优势,这证明了我们的方法的优越性。

结论

在本文中,我们验证了全连接检测头更适合对象分类,而卷积检测头更适合对象定位的假设。基于这一发现,我们提出将分类和边框回归分别分离为全连接检测头和卷积检测头。此外,我们发现无聚焦任务在两个方面都有帮助:(a)通过在卷积检测头中添加分类任务来增强对象分类,因为它是对全连接检测头分类的补充;(b)边框回归为全连接检测头提供了辅助监督。在 MS COCO 上,使用 ResNet-50 和 ResNet-101 测试,我们的方法比 FPN 的 AP 分别提升 3.5 和 2.8。我们相信这对未来的目标检测方面的研究很有帮助。

致谢

本文由南京大学软件学院 2021 级硕士叶宇晖翻译转述。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表