计算机系统应用教程网站

网站首页 > 技术文章 正文

深度学习图像目标检测必须掌握的基本概念与知识

btikc 2024-10-02 12:15:48 技术文章 12 ℃ 0 评论

传统目标检测方法

  • 手动设计特征
  • 滑动窗口
  • 使用传统分类器
  • 多步骤实现
  • 准确度和实时性差

深度学习目标检测方法

  • 深度网络学习特征
  • Proposal或者直接回归
  • 深度网络分类
  • 端到端
  • 准确度高且实时性好

目标检测算法分类

主要分为One stage和Two stage两大类:

One stage:

  • 步骤:特征提取->分类->定位/回归。
  • 成员:YOLOv1、SSD、YOLOv2、RetinaNet、YOLOv3
  • 特点:准确度低,速度快。

Two stage:

  • 步骤:特征提取->生成RP->分类->定位/回归
  • 成员:Fast R-CNN、Faster R-CNN
  • 特点:准确度高,速度慢。

Selective Search

即选择性搜索。

  • 使用具有不同不变性质的各种颜色空间
  • 使用不同的相似性度量
  • 使用不同的初始化区域

Bounding-Box regression

边框回归。 生成的proposal与groundtruth的两个框不一致,我们想通过某种方法使得产生的另个一个框介于两者之间,更接近与真值。一般遇到的bbox,即指Bounding-Box。

ROI

region of interest,感兴趣区域。通俗的可以理解为使用LabelImg标注的区域。

IoU

Intersection-over-Union,交并比。产生的候选框和原标记框的交叠率,即面积的交集和并集的比值。完美情况为1。是一个评价函数。

NMS

Non-maximum suppression, 非极大值抑制算法。本质是搜索局部极大值,抑制非极大值元素,在目标检测中通过选取邻域里分数最高的窗口,同时抑制分数低的窗口去消除多余的框,找到最佳的物体检测位置。现在一般使用Soft-NMS。

Anchors

对于该图像的每一个位置,考虑9个可能的候选窗口:三种面积三种比例。这些候选窗口称为anchors。下图示出51*39个anchor中心,以及9种anchor示例。

RPN

Region Proposal Network ,如同一个黑盒子,输入一个任意尺度的图片,输出一系列的矩形object proposals。区域生成网络,在Faster-RNN中使用。

步骤:

  1. 将图片输入到VGG或ZF的可共享的卷积层中,得到最后可共享的卷积层的feature map。
  2. 小网络继续卷积feature map;;获得原图的锚点(anchor)
  3. 将卷积的结果和锚点分别输入到两个小的1*1的网络中reg(回归,求目标框的位置)和cls(分类,确定该框中是不是目标)
  4. 训练集标记好了每个框的位置,和reg输出的框的位置比较,用梯度下降来训练网络。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表