计算机系统应用教程网站

网站首页 > 技术文章正文

Res2Net:新的深度学习多尺度结构，提升物体检测立竿见影

btikc 2024-09-05 12:19:54 技术文章 10 ℃ 0 评论

作者：Less Wright
编译：ronghuaiyang

导读

只要把ResNet中的block块换成Res2Net的block块，其他什么都不用动，物体检测立刻提升2个点。

正如谷歌Brain的EfficientNe论文所显示的，对于CNN架构的各个方面(宽度、深度、分辨率)的扩展，投资的回报正在迅速减少。

有一篇新的论文，来自Gao，Cheng，Zhao等人，Res2Net: a new multi-scale backbone architecture，展示了在一个给定块中做多尺度，而不是通常的一层一层的做多尺度，是一个未知的领域，可以对物体检测和分割带来额外的回报。

大多数架构都是在一层一层的基础上使用了多尺度。他们的创新之处是在一个给定的残差块中使用分层的、层叠的特征组(称为“scale”)，取代了通用的单个3x3卷积核。

为此，他们重建了普通的ResNet架构的bottleneck block，用“4scale-(3x3)”残差分层架构取代了标准的1-3-1的CNN布局。因此，这个更改构建了“Res2Net”。这样，中间的主卷积从单分支变为多分支。

用图来说明一下：

这里的概念是通过增加块内的感受野，而不是一层一层地捕获图像中更细粒度的不同级别的尺度，从而提高CNN检测和管理图像中物体的能力。

作者将Res2Net块内的特征组数量称为“scale dimension”。因此上面的代码块是scale为4的Res2Net代码块。

然后，可以将这些Res2Net模块插入标准ResNet或ResNeXt模块中，从而提高它们的粒度。

Res2Net着重于分割类型的任务，其中改进的物体识别能力发挥了作用。下面是图像语义分割的比较：

正如上面所看到的，在bottleneck中引入scale维度可以帮助CNN更好地勾勒出图像中感兴趣的东西，从而提高整体的准确性。

对ImageNet的改进——唯一的改变是在特定的架构中切换到Res2Net块

Res2Net的github在这里：https://github.com/gasvn/Res2Net

把ResNet更新为Res2Net = Res2NetPlus

然而，我发现Res2Net的官方实现在很多方面都是在一个较老的ResNet风格中实现的。因此，我从github@frgfm(基于github @gasvn)获取Res2Net实现，并将其修改为：

1、使用Mish而不是ReLU进行激活。

2 、将ResNet的主干更改为一个前沿的3@3x3堆叠的主干(stride 2，stride 1，stride 1)，而不是旧的单一的7x7核。

3 、反转BN->激活的顺序，变成激活->BN。这是基于我们对FastAI研究的发现，并得到了论文：Rethinking the usage of Batchnorm…的支持:

“我们不应该把Batch Normalization放在ReLU之前，因为ReLU的非负响应会使权值层更新的方式不太理想……”。

PyTorch代码：https://github.com/lessw2020/res2net-plus

用法很简单：

在FastAI框架中使用Res2Net Plus(这里创建了一个4尺度、26宽度的Res2Net50)

Res2NetPlus的实际应用

在咨询工作中，我利用卫星图像构建了一个太阳能电池板探测器，我从零开始构建了一个Res2NetPlus50，然后将其与标准Imagenet预训练的进行了迁移学习的ResNet50进行了比较。我发现Res2Net50的准确率更高(+5%)，训练也更稳定。

该模型最终于上周投入生产，验证数据的准确率为97.8%。

初步生产结果与训练结果一致：

缺点：

虽然Res2Net的计算复杂度与等效的ResNet相似，但它的运行速度仍然比对应的ResNet慢(20%似乎是平均水平)。

此外，对于FastAI排行榜数据集之类的分类任务，Res2Net在验证和训练损失上创造了记录(即正确时更正确，错误时更少错误)，但并不是最终的绝对准确性的记录。

这是一个我还没有弄明白如何改正的问题，只有先假设一些分类任务可能是不是非常依赖于完整的物体的区分。

因此，Res2Net的最佳用法似乎集中在物体识别和分割类型的任务上。

小技巧 - Res2Net喜欢高级数据增强，比如mix-up、CutMix等。你可以看到使用这些工具时验证损失会急剧下降，因此强烈建议使用Res2Net进行大量的数据增强。

链接：

官方的Res2Net仓库：https://github.com/gasvn/Res2Net

Res2NetPlus结构：https://github.com/lessw2020/res2net-plus

英文原文：https://medium.com/@lessw/res2net-new-deep-learning-multi-scale-architecture-for-improved-object-detection-with-existing-de13095c9654

上一篇： 3D目标检测深度学习方法中voxel-represetnation内容综述(三)
下一篇：好发论文新方向:KAN+Transformer!准确率达99.86%!

猜你喜欢

2024-09-05 语义分割网络 - FPN 结构及代码
2024-09-05 3D目标检测深度学习方法数据预处理综述
2024-09-05 Python 深度学习之人脸识别(yolo+facenet)
2024-09-05 「综述」神经网络中不同种类的卷积层
2024-09-05 SENet v2来啦 | Squeeze-Excitation模块+Dense Layer的Backbone
2024-09-05 一个神奇的深度学习算法，实现图像抠图照片换背景人像素描漫画化
2024-09-05 好发论文新方向:KAN+Transformer!准确率达99.86%!
2024-09-05 3D目标检测深度学习方法中voxel-represetnation内容综述(三)
2024-09-05 神经网络如何进行深度估计?
2024-09-05 41.人工智能——深度学习飞桨-PaddleX 模型训练过程和参数说明

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

最近发表