使用MindSpore实现FasterRCNN网络的训练和推理

计算机视觉（Compute Vision，CV）给计算机装上了“眼睛”，让计算机像人类一样也有“视觉”能力，能够“看”懂图片里的内容。作为深度学习领域的最重要的应用场景之一，在手机拍照、智能安防、自动驾驶等场景均有广泛的应用，而检测类任务作为CV领域的一类经典任务，也在以上场景中广泛应用。

本文以经典的目标检测网络FasterRcnn为例，介绍一下如何使用MindSpore来完成一个检测模型的开发及部署。

FasterRCNN是一个two-stage结构的目标检测网络框架，其中主体结构包含4个部分，包括由Resnet50构成的网络主干，由FPN（Feature Paramid Network）构成的高分辨率特征融合模块，由RPN（Region Proposal Network）构成的兴趣区域（ROI）检测模块，以及由卷积和全连接层构成的分类和位置调整模块（RCNN）。

下图是论文中给出的FasterRcnn网络的结构图。在本文中，我们对整体结构做了一些调整：在网络结构上使用ROIAlign模组代替了ROIPooling，并增加了FPN作为高分辨特征的融合组件。

从图中可以看到，一张图片通过FasterRcnn网络，就可以获取到目标的位置与目标的类别，因此，我们可以将FasterRcnn应用到安防，自动驾驶等各种场景，让自动一定程度上减少人工的工作量。

使用MindSpore来复现FasterRCNN这个经典的检测网络。这里仅列出了部分重要代码片段，完整代码请参考：

https://gitee.com/mindspore/mindspore/blob/master/model_zoo/official/cv/faster_rcnn

FasterRcnn主体的网络结构定义在src/FasterRcnn内，生成数据集的相关代码在src/dataset.py中，src/network_define.py封装放了训练相关的类，src/config.py中存放了配置信息。

1. 配置信息

配置文件里包含了网络中各种参数配置，包括resnet的层数，fpn的特征层数，学习率，batchsize，momentum等等，下图列举了部分参数，完整参数可以查看src/config.py。

2. 网络结构

网络结构的定义是整个代码的核心部分，在FasterRcnn中，这一部分代码在src/FasterRcnn文件夹内，其中总体网络结构入口在src/faster_rcnn.r50.py

文件中，其余文件是网络中各个子模块的网络结构，如下图：

每个模块的定义是：

ResnetFea：

resnet的网络结构定义，为FasterRcnn的backbone的网络结构

· FeatPyramidNeck：

FPN（特征金字塔网络）的网络结构定义，为FasterRcnn提供不同的高分辨率特征

· RPN：

RPN(Region proposal network)的网络结构定义，为FasterRcnn第一阶段计算分类与回归loss的模块

· BboxAssignSample：

为RPN模块的子模块，为RPN选择固定比率的正负样本参与loss计算

· Proposal：

选取候选框的模块，后续第二阶段，只对这一模块输出的候选框进行计算

· BboxAssignSampleForRcnn：

对Proposal模块输出的候选框，再次进行一轮正负样本的筛选，用于第二阶段的计算

· SingleRoIExtractor：

该模块主要是用来提取每个候选框的对应特征，并保证特征大小一致

· RCNN：

为FasterRcnn第二阶段计算分类与回归loss的模块

· AnchorGenerator：

预先生成anchor框的模块

通过以上这些模块的组合，结合之前的网络结构介绍，我们就可以获取到一个完整的FasterRcnn网络的模型定义，下图就是部分整网定义的代码，完整的整网定义可以查看src/faster_rcnn.r50.py文件：

接下来，我们就可以在MindSpore中定义网络的执行顺序了，在MindSpore中，执行顺序参考construct函数，整网执行顺序如下：

3. Lr定义

为了得到更好的训练效果，我们可以使用动态学习率来进行训练，在本文中，我们结合了warmup与cosine学习率来进行训练：

4. 数据生成与数据增强

MindSpore中提供了MindRecord的接口来存储数据，方便用户使用，我们可以先把图片与标签数据生成MindRecord格式的数据，方便后续使用：

在训练与推理的时候，因为采用的数据增强方式不同，所以我们可以通过is_training标志位来区分数据处理，并且MindData中提供了大量高效的数据增强方式，我们可以快速调用这些数据增强，来提升我们的网络精度。

如下图所示，我们为训练增加了随机的图片翻转，来提升模型精度：

5. 训练FasterRcnn网络

做完上面一系列准备后，我们就可以着手开始训练我们的网络了：

在训练过程中，我们可以在loss.log中看到loss打印：

6. 推理FasterRcnn网络

当我们完成训练后，想查看我们训练的效果，这时候可以加载我们训练好的模型，来获取推理的精度：

推理完成后，我们可以看到如下推理结果：

本文介绍了如何在MindSpore上实现FasterRcnn网络的训练与推理，通过使用MindSpore可以很方便、高效地完成CV典型应用的构建、训练、验证、部署等过程。感兴趣的朋友们可以试一试~

MindSpore官方资料
GitHub:https://github.com/mindspore-ai/mindspore
Gitee:https://gitee.com/mindspore/mindspore
官方QQ群: 871543426

网站首页 > 技术文章正文

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

使用MindSpore实现FasterRCNN网络的训练和推理

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: