计算机系统应用教程网站

网站首页 > 技术文章 正文

知识|深度学习目标检测算法小结,让机器轻松检测到你所想

btikc 2024-08-30 13:01:41 技术文章 21 ℃ 0 评论

导读:深度学习目标检测算法越来越成熟,那么到底在目标检测上有哪些可用的深度学习算法,哪些算法又比较适合我们的工作或者研究呢?本文带你清晰的掌握目标检测算法!

本头条号专注于人工智能与深度学习领域,持续为大家带来有趣有料、好玩又好学的知识与视界,喜欢或者支持小编的朋友可以订阅、转发与评论,让更多人一起踏入人工智能的海洋,让知识也可以走在共享的时代上!


目标检测涉及的算法:

篮球检测

[overfeat](http://arxiv.org/abs/1312.6229)

[RCNN](http://arxiv.org/abs/1311.2524)

[SPP-Net](http://arxiv.org/pdf/1406.4729.pdf)

[Fast-RCNN](http://arxiv.org/abs/1504.08083)

[Faster-RCNN](http://arxiv.org/abs/1506.01497)

[YOLO](http://arxiv.org/abs/1506.02640)

[SSD](http://arxiv.org/pdf/1512.02325v1.pdf)

[HyperNet](https://www.arxiv.org/abs/1604.00600)

[MR-CNN](http://arxiv.org/abs/1505.01749)

[Inside-Outside Net] (http://120.52.73.9/www.cvfoundation.org/)

[R-FCN](http://arxiv.org/abs/1605.06409)

[MASK-RCNN](http://arxiv.org/abs/1605.02319)

检测与分割

目标检测算法比较:

目标检测算法实际应用中的场景,无外乎关心MAP和检测耗时两个指标,针对上述一系列的算法,下表给出其对应的结果,其中+++表示训练数据为VOC07+VOC12+MS COCO。其余方法的训练数据均为VOC07 for VOC07 test,VOC07+VOC12 for VOC12test, MS COCO for MS COCO test

方法检测耗时VOC07VOC12MS COCO
overfeat----------------
RCNN13s66.053.3----
SPP-Net0.29s59.2--------
fast-rcnn0.32s70.068.019.7
faster-rcnn+++140ms85.683.821.9
HyperNet1140ms76.371.4----
MR-CNN30s78.273.9----
R-FCN+++0.17s83.682.029.9
ION0.8s79.276.433.1
实时算法--------
YOLO45FPS63.457.9----
Fast YOLO155FPS52.7--------
SSD30058FPS72.170.320.8
SSD50023FPS75.173.124.4

各算法检测结果

实时目标检测算法—Yolo

考虑篇幅以及可读性,本文只介绍视频中的目标检测算法YOLO ,关于该算法的视频Demo可以在我主页里查看:深度学习之YOLO2实时目标检测演示,其链接:国外大片遇上深度学习之YOLO2实时目标识别演示

  • YOLO核心点是将原图分块,每一块分类和回归一起做。等效于将原图划分为n个区域,然后分别在各个区域中回归框同时分类框。

流程

YOLO将原图划分为SxS个区域。如果一个物体的中心在某个区域,那么该区域就负责此物体的定位和识别。每个区域会回归B个框(x,y,w,h)以及其对应的置信度(conf)。置信度用 表示。即给定某个预测时(特征以及预测框),第一项表示该区域存在物体的概率,后一项表示该预测的准确度,即预测框与ground truth的重叠面积。每个区域还会预测C个条件概率 ,C为类别数。

Test阶段

  • YOLO的缺陷:受限于每个区域对于每个类只预测两个框,导致某个区域附近临近的小物体或物体集群(例如鸟群)无法被检测到。

  • YOLO训练的技巧

1、做detection要求精细的特征,因此将输入图片的大小适当扩大会有比较好的效果。例如YOLO讲原GoogleNet的输入大小由224改为了448

2、使用平方和误差损失函数的度量方法,应该能反应:细小的误差对于大框的影响要远小于对于小框的影响。因此预测的是框w和h的平方根,而不是其本身。提高灵敏度。

3、数据扩增:在HSV颜色空间随机调整曝光率和饱和度;随机放缩和平移。

其它相关资源特别推荐

知识|从兴趣到入门系列,深度学习入门开源Demo集锦

知识|开源框架Caffe用于目标检测(附苹果机器学习库)

皓目分析仪,格灵深瞳的视频监控分析演示视频

五分钟带你真正了解机器学习与深度学习

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表