计算机系统应用教程网站

网站首页 > 技术文章 正文

深度学习图像目标检测:从R-CNN到Faster R-CNN

btikc 2024-08-30 13:03:05 技术文章 14 ℃ 0 评论

通过提取区域推荐然后进行目标检测与分类算法系列已经历经三代。本文将从思想层面依次介绍其核心思想和演变历程。将抽象的模型算法拆解成可以通俗理解的概念。理解算法思路在看公式才能读懂。

R-CNN(爷爷辈)

2014年R-CNN框架将卷积应用到目标检测。

步骤:

  1. 原始图片进入模型后使用selective method算法生成2000个候选区域,本质上意思是对原图进行抠图,生成可能出现物体的区域。
  2. 将2000个候选区域传入卷积模型提取特征。
  3. 提取特征后利用SVM进行物体分类,使用回归进行位置预测。

缺点:

  1. 2000个候选框都进行了一次卷积核SVM分类器,等于进行了多次卷积核分类,运算量大。
  2. selective method算法速度慢,耗时大。

Fast R-CNN(爸爸辈

Fast R-CNN本质上只经过一个卷积模型进行特征提取。解决了R-CNN出现的缺点1,减少卷积次数。对feature map进行抠图,进行了共享卷积特征。

步骤:

  1. 原始图片经过卷积层提取特征,生成feature map。
  2. 对feature map使用selective method算法,生成候选区域。
  3. 由于生成的候选区域尺寸不一样,经过ROI Pooling层将候选区域归整成同样尺寸。
  4. 使用softmax代替svm进行分类。使用回归进行位置预测。

Faster R-CNN(真身)

Faster R-CNN祖辈的最大区别是使用RPN(Region Proposal Network)代替了耗时的Selective method。

步骤:

  1. 输入图片经过VGG或者其他CNN网络进行特征提取,生成相应的feature map。
  2. feature map经过RPN网络,feature map每个点生成9个Anchor box.
  3. 使用Anchor box作为参照物,计算偏移,然进行预测。
  4. 每个点,分类方面得到2k scores 用于判断是否有无物体。
  5. 每个点,位置预测方面有4k coordinates 用于判断位置。
  6. 上文的k是指9,即Anchor box种类。
  7. Rol pooling层将提取的proposal region变形成同样尺寸。接着过滤无意义的候选框。
  8. RPN提取的候选框+前文的feature map判断每个候选框的物体是什么,本质上是判断是否进行了有效抠图,
  9. 最后经过全连接层进行分类,并且回归目标位置。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表