网站首页 > 技术文章 正文
作者 | 小马
编辑 | CV君
报道 | 我爱计算机视觉(微信id:aicvml)
【写在前面】
随着ResMLP、MLP-Mixer等文章的提出,基于MLP的backbone重新回到了CV领域。在图像识别方面,基于MLP的结构具有较少的假设偏置,但是依旧能够达到与CNN和Vision Transformer相当的性能。其中 spatial-shift MLP(S2-MLP)采用了空间移位操作,因此达到了比ResMLP、MLP-Mixer更好的性能。近期,采用了更小的patch和金字塔结构的Vision Permutator (ViP)和Global Filter Network (GFNet) 在性能上又一次超越了S2-MLP。
因此,作者基于S2-MLP,沿着通道维度拓展了特征的维度,并将特征按通道维度分成了多组,每组进行不同的空间移位操作,最后再采用split-attention将这些特征融合起来。此外,与其他工作一样,作者也采用了更小尺度的patch和金字塔结构来提高图像识别精度。在55M参数 下,作者提出的S2-MLPv2-Medium能够在ImageNet上达到83.6% 的性能(不适用额外的数据预训练,输入图片大小为224x224)。
1. 论文和代码地址
S2-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
论文地址:https://arxiv.org/abs/2108.01072
代码地址:未开源
2. Motivation
近年来,研究者们在更少的假设偏置下实现更高的性能(主要包括Vision Transformer结构和基于MLP的结构)。Vision Transformer模型堆叠了一系列Transformer块,实现了全局感知的效果。MLP-based方法通过MLP将不同patch的信息进行投影,实现不同patch的信息交互,这也是一种全局的信息交互。
为了使得原始的S2-MLP达到更高的性能,S2-MLP的作者重新对S2-MLP结构进行了改进,提出了S2-MLPv2。相比于S2-MLP,S2-MLPv2的改动主要有两个方面:
1)作者沿着通道维度拓展特征图,并将扩展的特征图分割为多个部分。对于不同的部分,作者进行不同的空间移位操作,以增加特征的多样性。最后,作者使用split-attention操作来融合这些分裂的部分。
2)借鉴现有的MLP架构(比如ViP,GFNet,Cycle-MLP等等),作者采用较小的patch和分层金字塔结构。
作者在ImageNet-1K上进行了实验,结果表明S2-MLPv2的图像识别精度达到了SOTA。在使用55M参数的情况下,作者提出的S2-MLPv2-Medium能够在ImageNet上达到83.6%的性能。
3. 方法
3.1. Spatial-Shift MLP (S2-MLP)
在介绍S2-MLPv2之前,首先回顾一下S2-MLP的做法。S2-MLP的结构如上图所示,主要有三部分组成:patch embedding、一系列S2-MLP block和classification head。
Patch embedding layer
这一步和ViT一样,首先将W × H × 3大小的图像裁剪成w × h个patch。每个patch的大小为p × p × 3, p =W/w =H/h。然后通过全连通层将每个patch映射为一个d维向量。
Spatial-shift MLP block
如上图所示,Spatial-shift MLP block由4个用于混合通道的MLP层和一个用于spatial shift的mixing patch。
spatial-shift层的输入为一个w x h x c的特征X,首先X在通道维度上被均分为了四份,然后对每一份分别做四个不同方向(长、宽的正、负方向)的shift操作,用公式表示如下(其实就是沿不同方向偏移一个单位的距离):
S2-MLP 的N个spatial-shift MLP块采用了相同的设置,并且没有像GFNet那样采用金字塔结构。
Split Attention
ViP[1]中采用了ResNest中提出的Split Attention来将不同操作之后的feature map进行融合。具体实现上,对于给定的K个nxc的特征图(其中n是patch的数量,c是通道数量),Split Attention首先K个特征图空间的信息进行了求和,计算如下:
这里的就是一个长度为n,内容全部为1的向量(将和进行点乘,其实就是把空间的信息进行求和),得到的就是 c维的向量。接着,将送入到MLP中,得到:
因为和分别为和的矩阵,所以是一个大小为Kc的向量。将reshape成一个的矩阵:
然后在K这个维度上进行Softmax(这样就相当于得到K这个维度上的Attention Map):
最后将这个Attention Map与K个X进行相乘,得到attention之后的特征:
3.2. S2-MLPv2
与S2-MLP Backbone类似,S2-MLPv2由patch embedding、一系列S2-MLPv2 block和classification head组成。因此与S2-MLP相比,S2-MLPv2的主要不同之处就是在S2-MLPv2 block。
S2-MLPv2 Block
S2-MLPv2模块由两部分组成,也就是S2-MLPv2和 channel-mixing MLP (CM-MLP)组件。给定输入映射X,S2-MLPv2会执行下面的操作:
这里的channel-mixing MLP 和MLP-Mixer(如下图所示)的实现是一样的。
因此,本文的最大不同之处就是在S2-MLPv2(算法流程如下图所示)。
对于输入的特征X,S2-MLPv2首先会把特征在通道维度上拓展为原来的3倍,表示如下:
然后将这拓展之后的特征X分为三组:
对前两组和分别用和两种转换方式进行spatial-shift,和这两种转换方式是非对称的,表示如下:
:
:
因为和是非对称的结构,所以它们在信息上可以互相补充。对于,作者没有做任何的平移操作。
接下来,作者将三组特征进行聚合,聚合方式采用的是上面介绍的split attention:
然后将得到的特征送入到另一个MLP中进行特征的增强:
S2-MLPv2 module的代码如下所示:
Pyramid Structure
在本文中,作者还采用了两层金字塔结构来提性能,为了能够与ViT进行公平的比较,作者采用了和ViP的相同的设置,如下表所示:
更小的patch可能更有利于捕捉细粒度的视觉特征,从而获得更高的识别精度,但是同时也会带来更大的计算资源消耗。
4.实验
4.1. 与MLP方法比较
上表展示了S2-MLPv2其他MLP结构在ImageNet上的性能对比。其中MLP-Mixer、ResMLP、gMLP、S2-MLP、CCS-MLP没有利用金字塔结构,因此与GFNet、AS-MLP、CycleMLP、ViP等结构相比,它们的识别精度并不是非常高。
在相似的计算量和参数量下,S2-MLPv2的性能都能够由于同类的MLP模型。
4.2. 与CNN和Transformer方法比较
如上表所示,在使用更少参数,但更多FLOPs的情况下,S2-MLPv2-Medium实现了与其它vision Transformer相当的精度。但是相比于需要Self-Attention的Vision Transformer结构,本文提出的结构就简单的多,并且使用了更少的参数。
4.3. 金字塔结构的影响
为了评估金字塔结构对提出的S2-MLPv2的影响,作者比较了Small/7设置和Small/14设置(配置如上表所示)。两者都与Vision Permutator相同。其中,Small/7中初始patch大小为7×7,Small/14中初始patch大小为14 × 14。
从直观上看,较小的Patch有利于对图像中的细粒度细节建模,有利于获得更高的识别精度。从上表可以看出,Small/7设置的性能确实比Small/14更好。
4.4. split attention的影响
作者比较了用split attention和sum pooling的方式来聚合特征,可以看出split attention的方式确实比sum pooling要好,但同时参数量也增加了一点。
4.5. split的影响
在实验中,作者是把X分成了三组,分别做不同的变换,探究split的影响,作者用了不同组的特征进行了实验。可以看出,三组特征都用的时候效果是最好的。
5. 总结
本文对S2-MLP模型进行了改进,提出了S2-MLPv2模型。将feature map进行扩展,并将扩展后的feature map分为多组。每组的feature map分别进行不同的偏移,然后将偏移后的特征用split attention进行聚合。同时,作者利用层次金字塔来提高其建模细粒度细节的能力,以获得更高的识别精度。使用55M参数,S2-MLPv2-Medium模型在ImageNet1K数据集上取得了83.6%的top-1精度,这是基于mlp方法的SOTA性能。同时,与基于Transformer的方法相比,S2-MLPv2模型在不需要Self-Attention的情况下,参数更少,但达到了相当的精度。
相比于现有的MLP的结构,S2-MLP的一个重要优势是,不管图像的输入是什么尺寸,S2-MLP的形状是不变的。因此,经过特定尺度图像预训练的S2-MLP模型可以很好地应用于具有不同尺寸输入图像的下游任务。
参考文献
[1]. Qibin Hou, Zihang Jiang, Li Y uan, Ming-Ming Cheng, Shuicheng Y an, and Jiashi Feng. Vision permutator: A permutable mlp-like architecture for visual recognition. arXiv preprint arXiv:2106.12368, 2021
作者简介
厦门大学人工智能系20级硕士
研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。知乎:努力努力再努力
猜你喜欢
- 2024-10-12 「AAAI oral」阿里北大提出新attention建模框架
- 2024-10-12 CVPR 2020 | 港中文、上交大、商汤联合提出两种轨迹预测新方法
- 2024-10-12 东北石油大学研究者提出电能质量扰动识别的新方法
- 2024-10-12 「独家解读」谷歌会议app背景模糊和替换技术解析
- 2024-10-12 如何在深度学习模型内部做特征选择?
- 2024-10-12 深度时空网络、记忆网络与特征表达学习在 CTR 预估中的应用
- 2024-10-12 揭秘 BERT 火爆背后的功臣——Attention
- 2024-10-12 MViT:性能杠杠的多尺度ViT | ICCV 2021
- 2024-10-12 CTR预估系列(5)–阿里Deep Interest Network理论
- 2024-10-12 「论文阅读」 Residual Attention: Multi-Label Recognition
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)