论文题目
On the Importance of Large Objects in CNN Based Object Detection Algorithms
1、简介
物体检测模型是一类突出的机器学习算法,旨在识别和精确定位图像或视频中的物体。然而,这个任务有时可能会产生不均匀的性能,这是由对象的大小和用于训练的图像和标签的质量引起的。在本文中,强调了大型对象在学习对所有尺寸都至关重要的特征中的重要性。鉴于这些发现,建议在训练损失中引入一个加权项,这一项是物体面积大小的函数。实验表明,给大型物体更多的权重可以提高所有物体大小的检测分数,从而提高物体检测器的整体性能,在2017年的COCO val (InternImage-T)上对小目标的mAP提高2个百分点,对中目标的mAP提高2个百分点,大目标的mAP提高4个百分点。在不同模型和不同数据集上进行的其他实验和消融研究进一步证实了研究结果的稳健性。
贡献如下:
?验证了在大对象上学习比在小对象上学习产生更好的检测性能。
?提出了一个简单的损失重加权方案,该方案更加强调大型对象,从而全面提高了对象检测器在所有对象尺寸上的性能。
?分析了哪些目标检测子任务的性能收益最明显,从而提高了对损失重加权影响的理解。
2、背景
1)TTFNet是CenterNet的衍生物,它将对象定义为单个点(其边界框的中心点)。它使用关键点估计来找到中心点并回归到所有其他对象属性。TTFNet通过使用高斯惩罚不仅在中心像素而且在其周围预测有界框来加速CenterNet的训练。考虑了几种加权方案,作者发现,通过将权重归一化,然后乘以框面积的对数,可以达到最佳性能,然后通过批中存在的权重之和将定位损失归一化。受此方法的启发,作者提出将大目标的加权方案也添加到定位和分类中。
2)数据增强是一种强大的解决方案,可以增强所有对象大小的目标检测模型的性能。通过对训练数据集进行转换,数据增强技术引入了多样性并扩展了不同尺度上对象的表示。随机缩放、翻转、旋转和平移等增强功能使模型能够学习强大的特征,以准确检测大小物体。专为小对象设计的增强,如随机补丁复制粘贴和像素级增强,有助于缓解与低分辨率细节和有限的上下文信息相关的问题。然而,需要注意的是,当涉及到对象大小时,数据增强技术有其局限性。虽然增强可以引入多样性并扩展对象的表示,但升级对象本身并不会产生额外的信息。通过增强增大小对象的大小可以提高它们的可见性,但它不能提供原始图像中不存在的额外上下文细节或特征。另一方面,缩小或调整较大对象的大小可能会导致重要信息和细粒度细节的丢失,这可能会妨碍准确的检测。
3、关于目标大小的重要性
1)COCO这样的数据集包含了一组不同大小的对象。然而,与检测小物体相比,检测大物体面临着不同的挑战。大型对象具有丰富的细节和纹理,可能需要解释或忽略,但这些丰富的信息通常足以在没有周围环境的情况下知道它们是什么。
2)小物体的不同之处在于,周围的环境对它们的解释具有重要意义。为了说明这一点,图2显示了一组裁剪过的小对象,它们没有上下文,也没有上下文。倾向于认为小目标检测主要依赖于主干的早期阶段。然而,这一观察表明,骨干的后期阶段具有捕捉大型物体的特征,但也具有检测小型物体所需的背景。因此,所有对象大小都需要在骨干网络的所有级别上提供高质量的特征。研究背后的直觉是,拥有各种大小的对象有助于学习各种大小的高质量特征,并且在损失中强调大型对象的重要性会更好。
3)这种直觉可以通过以下实验来验证:给定一个目标检测器,对于训练数据集(COCO),首先使用随机权重初始化模型,并仅使用大目标进行预训练。使用了的大小范围如表1所示。我们冻结编码器层,并在所有训练数据上微调模型。然后重复同样的过程,但使用中小目标数据进行预训练。训练和测试mAP和mAR的结果如表2所示。这些实验的目的是观察在专门对大目标或小+中目标进行训练时,学习到的不同目标大小的骨干特征的质量。
4)尽管与数据集的其余部分相比,大目标的数量相对较少,但在大目标上进行预训练并在整个数据集上进行微调的模型在所有规模上都表现得更好。这意味着较大对象的特征更通用,可以用于检测所有对象大小,包括较小的对象。对于在小对象上学习到的特征,这种情况就不那么明显了。
5)另一个有趣的点是,只在中小目标上训练的网络在这些目标上的表现比在整个数据集上训练的网络要差。事实上,即使是使用骨干网络只对大目标进行预训练并对整个数据集进行微调的网络,在小目标上也有更好的检测性能。这突出了一个论点,即大目标有助于在所有尺度上学习更有意义的特征。
4、方法
1)为了有效地利用大尺寸目标来增强模型性能,在专门为目标检测任务设计的损失函数中包含一个权重项
其中hi是第i个物体的高度,wi是它的宽度。
以YOLO v5损失为例:
在每个训练步骤中,计算所有批次样本损失的平均值
其中ψ∈{confidence, classif, CIoU}, Nb为批中边界框的个数,Bbatch为批中边界框的集合,i为对一个边界框的预测,^i为相应的真值。修改Lψ,把权重Wi和Lψ结合:
其中
这一项的目的是在训练过程中给更大的对象分配更高的权重,从而鼓励模型更多地关注于从中学习。另一方面,小对象对学习的影响较小,因为批处理中权重的总和是归一化的。
损失函数中权重项的加入鼓励模型优先考虑大型目标的准确检测和定位。这导致更多的辨别特征和更好的上下文理解,特别是关于较大的物体。因此,模型也能更好地处理小物体。此外,权重项通过在训练期间显式地给予较大的对象更多的突出性,有助于解决对较小对象的固有数据集偏差。这种偏差校正允许模型更有效地从数据集中有限数量的大型对象中学习,弥合小型和大型对象识别之间的性能差距。
5、实验
1)模型在COCO val 2017上的表现
2) InternImage-T 在数据集 NuScenes上的表现
3)不同分支加入权重的效果
4)权重函数的选择
本文暂时没有评论,来添加一个吧(●'◡'●)