计算机系统应用教程网站

网站首页 > 技术文章 正文

深度学习的小目标检测算法

btikc 2024-08-30 13:02:37 技术文章 17 ℃ 0 评论

首先,在目标检测的发展过程中,小物体的检测精度相较于中大物体要低。无论是相对定义还是绝对定义,归根结底小物体在图像中的像素都很小、分辨率低以及缺少特征信息。小目标检测精度较低的几点原因如下:

(1)缺乏特征信息。由于小物体的像素较少,而在如今深度的神经网络下,会经过几十上百次的卷积池化操作,下采样能够减少计算量、扩大感受野,生成图像对应的缩略图,但会使小目标的信息大量丢失,使得在特征图中小目标的信息越来越少。

(2)神经网络在前向传播中信息丢失。在进行前向传播过程中,特征图的语义信息越来越强,而位置信息逐渐丢失,这使得难以定位目标位置坐标。

(3)数据集中样本数量分布不均。如果在训练集中小目标的数量与大、中目标分布不均会导致网络在学习中对不同大小的目标适应力低,导致检测精度的降低。在COCO 数据集中,同时含有大中小三种尺寸目标的图片占总样本的52.3%,其中大、中目标与小目标的占比分别为70.7%与83.0%,样本的合理分配使得COCO 数据集成为了小目标检测的常用数据集。获得合适的数据集在应用中也是一大难点。

(4)先验框的设置。由于检测物体的大小以及宽高多变,使得设置的先验框难以匹配实际情况。现有的方法通过设置多组先验框或者根据训练数据集计算出锚框,但在检测未经训练的目标时,泛化能力欠佳。

(5)损失函数欠妥。在深度学习模型中,使用损失函数来进行梯度下降从而优化模型参数。选择一个合适的损失函数就显得尤为总要。现有的算法中IoU 作为损失函数中重要的一部分,其决定了在检测中对物体定位的准确度,然而小目标相较于大、中目标而言,IoU 的敏感程度不同。

其次,一些通用小目标检测方法对比如下:

多尺度特征方法

主要内容:融合低层特征图的细节信息与高层特征图的语义信息

优点:高分辨率与高语义信息的融合,减少了信息的丢失

局限性:特征融合结构的复杂性使得计算量上升

SIOU方法

主要内容:将预测框与真实框的角度纳入损失函数

优点:加快网络的收敛速度

局限性:检测效果依赖数据集

NWD方法

主要内容:利用提出的方法来度量预测框与真实框二维高斯分布的相似性

优点:无论目标之间是否重叠均能够度量其相似性,且对尺度不敏感

局限性:计算复杂度提高,网络收敛时间变长

RFLA方法

主要内容:先计算预测框与真实框二维高斯分布的距离,再通过分数排名为小目标分配标签

优点:解决了微小目标标签分配存在的尺度样本不平衡问题

局限性:计算复杂度提高,网络收敛时间变长

Perceptual GAN

主要内容:通过增强小目标的特征,减小大目标与小目标间的特征差异

优点:首次将GAN 用于小目标检测任务,减小了目标间的特征差异

局限性:缺乏直接监督信号。

MTGAN

主要内容:对小且模糊图像进行重建,恢复细节信息

优点:提高了图像的细节信息

局限性:经过了两次特征提取,计算量大

Towards Precise Supervision of Feature Super-Resolution for Small Object Detection

主要内容:通过低分辨率特征生成高分辨率特征

优点:提高了特征图的细节信息以及分辨率

局限性:重建过程耗时长,检测速度慢

QueryDet

主要内容:采用级联稀疏查询机制,根据预估的小目标粗略位置来引导高分辨率特征计算准确结果

优点:保证高分辨率的同时提高了网络检测效率与速度

局限性:会存在小目标无法定位的问题

SAHI

主要内容:通过将图像切块并放大,在每一个块中检测小目标,并与原图中较大目标的检测结果合并为最终结果

优点:将小目标检测问题转为了中大目标的检测,提升了检测精度

局限性:由于在处理一张图片时会额外推理每一个块,导致检测速度下降

其他方法

Augmentation for small object detection

MRAE

特定领域下的小目标检测方法

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表