导读:深度学习目标检测算法越来越成熟,那么到底在目标检测上有哪些可用的深度学习算法,哪些算法又比较适合我们的工作或者研究呢?本文带你清晰的掌握目标检测算法!
本头条号专注于人工智能与深度学习领域,持续为大家带来有趣有料、好玩又好学的知识与视界,喜欢或者支持小编的朋友可以订阅、转发与评论,让更多人一起踏入人工智能的海洋,让知识也可以走在共享的时代上!
目标检测涉及的算法:
[overfeat](http://arxiv.org/abs/1312.6229)
[RCNN](http://arxiv.org/abs/1311.2524)
[SPP-Net](http://arxiv.org/pdf/1406.4729.pdf)
[Fast-RCNN](http://arxiv.org/abs/1504.08083)
[Faster-RCNN](http://arxiv.org/abs/1506.01497)
[YOLO](http://arxiv.org/abs/1506.02640)
[SSD](http://arxiv.org/pdf/1512.02325v1.pdf)
[HyperNet](https://www.arxiv.org/abs/1604.00600)
[MR-CNN](http://arxiv.org/abs/1505.01749)
[Inside-Outside Net] (http://120.52.73.9/www.cvfoundation.org/)
[R-FCN](http://arxiv.org/abs/1605.06409)
[MASK-RCNN](http://arxiv.org/abs/1605.02319)
目标检测算法比较:
目标检测算法实际应用中的场景,无外乎关心MAP和检测耗时两个指标,针对上述一系列的算法,下表给出其对应的结果,其中+++表示训练数据为VOC07+VOC12+MS COCO。其余方法的训练数据均为VOC07 for VOC07 test,VOC07+VOC12 for VOC12test, MS COCO for MS COCO test
方法 | 检测耗时 | VOC07 | VOC12 | MS COCO |
---|---|---|---|---|
overfeat | ---- | ---- | ---- | ---- |
RCNN | 13s | 66.0 | 53.3 | ---- |
SPP-Net | 0.29s | 59.2 | ---- | ---- |
fast-rcnn | 0.32s | 70.0 | 68.0 | 19.7 |
faster-rcnn+++ | 140ms | 85.6 | 83.8 | 21.9 |
HyperNet | 1140ms | 76.3 | 71.4 | ---- |
MR-CNN | 30s | 78.2 | 73.9 | ---- |
R-FCN+++ | 0.17s | 83.6 | 82.0 | 29.9 |
ION | 0.8s | 79.2 | 76.4 | 33.1 |
实时算法 | -- | -- | -- | -- |
YOLO | 45FPS | 63.4 | 57.9 | ---- |
Fast YOLO | 155FPS | 52.7 | ---- | ---- |
SSD300 | 58FPS | 72.1 | 70.3 | 20.8 |
SSD500 | 23FPS | 75.1 | 73.1 | 24.4 |
实时目标检测算法—Yolo
考虑篇幅以及可读性,本文只介绍视频中的目标检测算法YOLO ,关于该算法的视频Demo可以在我主页里查看:深度学习之YOLO2实时目标检测演示,其链接:国外大片遇上深度学习之YOLO2实时目标识别演示
YOLO核心点是将原图分块,每一块分类和回归一起做。等效于将原图划分为n个区域,然后分别在各个区域中回归框同时分类框。
YOLO将原图划分为SxS个区域。如果一个物体的中心在某个区域,那么该区域就负责此物体的定位和识别。每个区域会回归B个框(x,y,w,h)以及其对应的置信度(conf)。置信度用 表示。即给定某个预测时(特征以及预测框),第一项表示该区域存在物体的概率,后一项表示该预测的准确度,即预测框与ground truth的重叠面积。每个区域还会预测C个条件概率 ,C为类别数。
YOLO的缺陷:受限于每个区域对于每个类只预测两个框,导致某个区域附近临近的小物体或物体集群(例如鸟群)无法被检测到。
YOLO训练的技巧
1、做detection要求精细的特征,因此将输入图片的大小适当扩大会有比较好的效果。例如YOLO讲原GoogleNet的输入大小由224改为了448
2、使用平方和误差损失函数的度量方法,应该能反应:细小的误差对于大框的影响要远小于对于小框的影响。因此预测的是框w和h的平方根,而不是其本身。提高灵敏度。
3、数据扩增:在HSV颜色空间随机调整曝光率和饱和度;随机放缩和平移。
本文暂时没有评论,来添加一个吧(●'◡'●)