EfficientDet:可扩展、高效的对象检测
题目:
EfficientDet: Scalable and Efficient Object Detection
作者:
Mingxing Tan, Ruoming Pang, Quoc V. Le
来源:
CVPR 2020
Computer Vision and Pattern Recognition (cs.CV)
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2020)
Submitted on 20 Nov 2019 (v1), last revised 3 Apr 2020 (this version, v4)
文档链接:
https://arxiv.org/pdf/1911.09070v4.pdf
代码链接:
https://github.com/zylo117/Yet-Another-EfficientDet-Pytorch
https://github.com/google/automl/tree/master/efficientdet
https://github.com/toandaominh1997/EfficientDet.Pytorch
https://github.com/xuannianz/EfficientDet
https://github.com/signatrix/efficientdet
摘要
模型效率在计算机视觉中变得越来越重要。本文系统地研究了神经网络结构在目标检测中的设计选择,并提出了提高检测效率的几个关键优化方案。首先,我们提出了一种加权双向特征金字塔网络(BiFPN),它可以方便、快速地融合多尺度特征;其次,我们提出了一种混合缩放方法,可以同时对所有主干、特征网络和box/class预测网络的分辨率、深度和宽度进行均匀缩放。基于这些优化和有效网骨架,我们开发了一个新的对象探测器家族,称为有效网,它始终在资源约束的广泛范围内实现比现有技术更好的效率。特别地,在单模型和单标度的情况下,我们的高能效dt - d7在COCO test-dev上使用52M参数和325B FLOPs实现了最先进的52.2 AP,比以前的检测器小了4倍- 9倍,减少了13倍- 42倍的FLOPs。代码在此https URL中可用。
英文原文
Model efficiency has become increasingly important in computer vision. In this paper, we systematically study neural network architecture design choices for object detection and propose several key optimizations to improve efficiency. First, we propose a weighted bi-directional feature pyramid network (BiFPN), which allows easy and fast multi-scale feature fusion; Second, we propose a compound scaling method that uniformly scales the resolution, depth, and width for all backbone, feature network, and box/class prediction networks at the same time. Based on these optimizations and EfficientNet backbones, we have developed a new family of object detectors, called EfficientDet, which consistently achieve much better efficiency than prior art across a wide spectrum of resource constraints. In particular, with single-model and single-scale, our EfficientDet-D7 achieves state-of-the-art 52.2 AP on COCO test-dev with 52M parameters and 325B FLOPs, being 4x - 9x smaller and using 13x - 42x fewer FLOPs than previous detectors. Code is available at this https URL.
引言
研究背景
最先进的物体探测器也变得越来越昂贵。例如,最新的基于阿米巴原虫的NASFPN探测器[42]需要1.67亿个参数和3045B FLOPs(比RetinaNet[21]多30倍)才能达到最先进的精度。大型模型尺寸和昂贵的计算成本阻碍了它们在机器人和自动驾驶汽车等许多现实世界应用程序中的部署,这些应用程序的模型尺寸和延迟都受到高度限制。考虑到这些现实的资源约束,模型效率对于对象检测变得越来越重要。
挑战1:高效的多尺度特征融合
特征金字塔网络[20](Feature pyramid networks,FPN)被广泛应用于多尺度特征融合。最近,PANet[23]、NAS-FPN[8]等研究[17、15、39]开发了更多用于跨尺度特征融合的网络结构。虽然融合了不同的输入特性,但以往的大多数工作只是简单地将它们相加,没有区别;然而,由于这些不同的输入特征具有不同的分辨率,我们观察到它们通常对融合的输出特征的贡献是不平等的。
为了解决这一问题,我们提出了一种简单而高效的加权双向特征金字塔网络(BiFPN),该网络在重复应用自顶向下和自底向上多尺度特征融合的同时,引入可学习权值来学习不同输入特征的重要性。
挑战2:模型缩放
之前的工作主要依赖于更大的主干网络[21,32,31,8]或更大的输入图像尺寸[11,42],为了获得更高的精度,我们观察到,在考虑准确性和效率的同时,扩展特征网络和box/class预测网络也是至关重要的。受文献[36](高效网络:卷积神经网络的再思考模型缩放。ICML,)算法的启发,我们提出了一种用于目标检测的复合标度方法,该方法可以对所有主干、特征网络、盒类预测网络的分辨率/深度/宽度进行联合标度。
特征网络设计
(a) FPN (b) PANet (c) NAS-FPN (d) BiFPN
图2(a)显示了传统的自顶向下FPN [20]。
传统的自顶向下FPN在本质上受到单向信息流的限制。为了解决这个问题,PANet[23]增加了一个额外的自底向上的路径聚合网络,如图2(b)所示。
图2(c) NAS-FPN[8]利用神经结构搜索发现不规则特征网络拓扑,然后重复应用相同块。
图2((d)是我们的BiFPN,具有更好的精度和效率权衡。
efficiententDet架构
图3:efficiententDet架构
它采用EfficientNet[36]作为骨干网络,BiFPN作为特征网络,共享类/盒预测网络。基于不同的资源约束,BiFPN层和class/box net层都要重复多次,如表1所示。
输入图像分辨率
我们的缩放是基于启发式的,可能不是最优的,但是我们将在图6中展示这种简单的缩放方法可以比其他一维缩放方法显著提高效率。
图6:不同缩放方法的比较-复合缩放可以达到更好的精度和效率。
实验
实验结果分析
我们还观察到,最近推出的efficient网[36]比以前常用的骨干取得了更好的效率。我们将effecentnet主干与我们提出的BiFPN和复合标度相结合,开发了一个新的对象检测器家族,命名为effecentdet,与以前的对象检测器相比,它始终能够在更少的参数和更少的错误的情况下获得更好的准确性。图1和图4显示了对COCO数据集[22]的性能比较。
图4显示了模型大小、GPU延迟和单线程CPU延迟的比较
所有数字均为单模单标度。我们的高能效探测器以比以前更少的参数和更少的失败实现了最新的52.2%的COCO AP。表4和表5显示了更多关于不同脊柱和FPN/NAS-FPN/BiFPN的研究。完整的结果见表2。
表3展示了我们的模型与之前DeepLabV3+[4]对Pascal VOC 2012[7]的比较。值得注意的是,我们排除了那些结果与合奏,测试时间的扩大,或COCO前训练。在相同的单模型单标度设置下,我们的模型与DeepLabV3+[4]的现有技术相比,在减少9.8倍的失败数的情况下,准确率提高了1.7%。这些结果表明,efficient - det在语义分割方面也很有前途。
表4:分离主干和BiFPN从标准RetinaNet(ResNet50 + FPN)开始,我们首先用EfficientNet-B3替换主干,然后用我们提议的BiFPN替换基线FPN。
结论
本文系统地研究了有效目标检测的网络结构选择,提出了加权双向特征网络和自定义复合标度方法,以提高目标检测的精度和效率。基于这些优化,我们开发了一个新的探测器家族,命名为efficiententDet,在广泛的资源约束下,它始终比现有技术获得更好的准确性和效率。特别是,我们的比例有效det实现了最先进的精度与更少的参数和失败比以前的对象检测和语义分割模型,
本文暂时没有评论,来添加一个吧(●'◡'●)