计算机系统应用教程网站

网站首页 > 技术文章 正文

YOLOv4:快速高精度目标检测

btikc 2024-09-24 08:20:05 技术文章 16 ℃ 0 评论

YOLOv4:快速高精度目标检测

题目:

YOLOv4: Optimal Speed and Accuracy of Object Detection

作者:

Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao

来源:

Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV)

Submitted on 23 Apr 2020

关注: 人工智能学术前沿 回复 :cv01

5秒免费获取论文pdf文档,及项目源码

摘要

据说有许多功能可以提高卷积神经网络(CNN)的准确性。需要在大型数据集上对这些特征的组合进行实际测试,并对结果进行理论证明。一些功能仅在某些模型上运行,并且仅在某些问题上运行,或者仅在小规模数据集上运行。而某些功能(例如批归一化和残差连接)适用于大多数模型,任务和数据集。我们假设此类通用功能包括加权残差连接(WRC),跨阶段部分连接(CSP),跨小批量标准化(CmBN),自对抗训练(SAT)和Mish激活。我们使用以下新功能:WRC,CSP,CmBN,SAT,Mish激活,马赛克数据增强,CmBN,DropBlock正则化和CIoU丢失,并结合其中的一些功能来实现最新的结果:43.5%的AP(65.7在Tesla V100上,MS COCO数据集的实时速度约为65 FPS。

英文原文

There are a huge number of features which are said to improve Convolutional Neural Network (CNN) accuracy. Practical testing of combinations of such features on large datasets, and theoretical justification of the result, is required. Some features operate on certain models exclusively and for certain problems exclusively, or only for small-scale datasets; while some features, such as batch-normalization and residual-connections, are applicable to the majority of models, tasks, and datasets. We assume that such universal features include Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation. We use new features: WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and combine some of them to achieve state-of-the-art results: 43.5% AP (65.7% AP50) for the MS COCO dataset at a realtime speed of ~65 FPS on Tesla V100. Source code is at https://github.com/AlexeyAB/darknet

主要贡献

我们的贡献总结如下:

  1. 开发了一种高效、功能强大的目标检测模型。它使每个人都可以使用1080 Ti或2080 Ti GPU训练一个超级快速和准确的目标检测器。
  2. 我们验证了最先进的袋- offreebies和袋- specials方法的影响,在检测器训练。
  3. 我们修改了目前最先进的方法,使其更有效,更适合单一GPU训练,包括CBN [89], PAN [49], SAM[85]等。

模型结构概述

图2:对象检测器

Input:图像,补丁,图像金字塔

Backbones: VGG16 [68],ResNet-50 [26],SpineNet [12],EfficientNet-B0 / B7 [75],CSPResNeXt50 [81],CSPDarknet53 [81]

Neck:

附加块:SPP [25],ASPP [5],RFB [47],SAM [85]

路径聚合块:FPN [44],PAN [49],NAS-FPN [17],全连接FPN ,BiFPN [77],ASFF [48],SFAM [98]

Heads:

密集预测(一级):RPN [64],SSD [50],YOLO [61],RetinaNet [45](基于锚)CornerNet [37],CenterNet [13],MatrixNet [60],FCOS [78] (无锚)

稀疏预测(两阶段):更快的R-CNN [64],R-FCN [9],Mask RCNN [23](基于锚)RepPoints [87](无锚)

实验结果

这项工作的主要目标是在生产系统中设计一个快速运行速度的对象检测器,并优化并行计算,而不是低计算量理论指标(BFLOP)。我们希望所设计的对象能够易于训练和使用。例如,任何使用传统GPU进行训练和测试的人都可以获得实时、高质量、令人信服的对象检测结果,如图1所示的YOLOv4结果。

图8:不同目标探测器的速度和精度比较(有些文章只介绍了一种gpu的FPS检测器:Maxwell/Pascal/Volta)

总结展望

我们提供最先进的探测器,更快(FPS)和更准确(MS COCO AP50…95和AP50)比所有可用的检测器。所描述的检测器可以在8-16 GB-VRAM的传统GPU上训练和使用,这使其广泛使用成为可能。基于锚的一级探测器的最初概念已经证明了它的可行性。我们对大量的特征进行了验证,选择了其中的一些特征用于提高分类器和检测器的准确率。这些特性可以作为未来研究和开发的最佳实践。

关注:人工智能学术前沿 回复 :cv01

5秒免费获取论文pdf文档,及项目源码

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表