网站首页 > 技术文章 正文
Attention注意力,起源于Human visual system(HVS),个人定义的话,应该类似于 外界给一个刺激Stimuli,然后HVS会第一时间产生对应的 saliency map,注意力对应的应该就是这个显著性区域。
这其中就涉及很多 bottom-up 及 top-down 的 physiological 原理~
Non-local NN, CVPR2018
FAIR的杰作,主要 inspired by 传统方法用non-local similarity来做图像 denoise。
主要思想也很简单,CNN中的 convolution单元每次只关注邻域 kernel size 的区域,就算后期感受野越来越大,终究还是局部区域的运算,这样就忽略了全局其他片区(比如很远的像素)对当前区域的贡献。
所以 non-local blocks 要做的是,捕获这种 long-range 关系:对于2D图像,就是图像中任何像素对当前像素的关系权值;对于3D视频,就是所有帧中的所有像素,对当前帧的像素的关系权值。
网络框架图也是简单粗暴:
Non-local block[1]
文中有谈及多种实现方式,在这里简单说说在DL框架中最好实现的 Matmul 方式:
1. 首先对输入的 feature map X 进行线性映射(说白了就是 1*1*1 卷积,来压缩通道数),然后得到θ,Φ,g特征
2. 通过reshape操作,强行合并上述的三个特征除通道数外的维度,然后对θ和Φ进行矩阵点乘操作,得到类似协方差矩阵的东西(这个过程很重要,计算出特征中的自相关性,即得到每帧中每个像素对其他所有帧所有像素的关系)
3. 然后对自相关特征 以列or以行(具体看矩阵g的形式而定) 进行 Softmax 操作,得到0~1的weights,这里就是我们需要的 Self-attention 系数
4. 最后将 attention系数,对应乘回特征矩阵g中,然后再上扩 channel 数,与原输入 feature map X 残差一下,完整的 bottleneck
嵌入在 action recognition 框架中的attention map 可视化效果:
注意力可视化[1]
图中的箭头表示,previous 若干帧中的某些像素 对最后图(当前帧)的脚关节像素的贡献关系。由于是soft-attention,其实每帧每个像素对对其有贡献关系,图中黄色箭头是把响应最大的关系描述出来。
总结
Pros:non-local blocks很通用的,容易嵌入在任何现有的 2D 和 3D 卷积网络里,来改善或者可视化理解相关的CV任务。比如前不久已有文章把 non-local 用在 Video ReID [2] 的任务里。
Cons:文中的结果建议把non-local 尽量放在靠前的层里,但是实际上做 3D 任务,靠前的层由于 temporal T 相对较大,构造θ,Φ及点乘操作那步,超多的参数,需要耗费很大的GPU Memory~ 可后续改善
Interaction-aware Attention, ECCV2018
美图联合中科院的文章。
这文章扯了很多 Multi-scale 特征融合,讲了一堆 story,然并卵;直接说重点贡献,就是在 non-local block 的协方差矩阵基础上,设计了基于 PCA 的新loss,更好地进行特征交互。作者认为,这个过程,特征会在channel维度进行更好的 non-local interact,故称为 Interaction-aware attention。
那么问题来了,怎么实现 通过PCA来获得 Attention weights呢?
文中不直接使用 协方差矩阵的特征值分解 来实现,而是使用下述等价形式:
根据上面公式约束,设计了Interaction-aware loss 来增强channel间的non-local交互:
其中 A 为需要学习的 attention weights,X 为输入的 feature map
整体的Attention Block框架图和 non-local 基本一致,有点小区别是,在 X 和 Watten 点乘后,还加了个 b 项,文中说这里可看作 data central processing (subtracting mean) of PCA
spatial pyramid interactive attention layer[3]
动作识别的主网络就与non-local中直接使用 I3D 不同,这里是使用类似 TSN 的采样Segment形式输入,然后使用2D网络提特征,再统一在Attention block进行时空聚合。
动作识别网络框架[3]
CBAM: Convolutional Block Attention Module, ECCV2018
这货就是基于 SE-Net [5]中的 Squeeze-and-Excitation module 来进行进一步拓展,具体来说,文中把 channel-wise attention 看成是教网络 Look 'what’;而spatial attention 看成是教网络 Look 'where',所以它比 SE Module 的主要优势就多了后者。
我们先看看 SE-module:
SE-module[5]
流程:
1. 将输入特征进行 Global AVE pooling,得到 1*1* Channel
2. 然后bottleneck特征交互一下,先压缩 channel数,再重构回channel数
3. 最后接个 sigmoid,生成channel 间0~1的 attention weights,最后 scale 乘回原输入特征
再看看 CBAM :
CBAM[4]
Channel Attention Module,基本和 SE-module 是一致的,就额外加入了 Maxpool 的 branch。在 Sigmoid 前,两个 branch 进行 element-wise summation 融合。
Spatial Attention Module, 对输入特征进行 channel 间的 AVE 和 Max pooling,然后 concatenation,再来个7*7大卷积,最后 Sigmoid
总的来说,上述几个Attention module很容易嵌入到现有的网络框架中,而 CBAM 特别轻量级,也方便在端部署,也可再cascade一下temporal attention,放进 video 任务里用~~
估计后续学术界会有很多基于它们的变形和应用,哈哈~
Reference:
[1] Xiaolong Wang, Ross Girshick, Abhinav Gupta, Kaiming He, Non-local Neural Networks, CVPR2018
[2]Xingyu Liao, Lingxiao He, Zhouwang Yang, Video-based Person Re-identification via 3D Convolutional Networks and Non-local Attention,2018
[3]Yang Du, Chunfeng Yuan, Bing Li, Lili Zhao, Yangxi Li, Weiming Hu,Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification, ECCV2018
[4] CSanghyun Woo, Jongchan Park, Joon-Young Lee, In So Kweon, BAM: Convolutional Block Attention Module, ECCV2018
[5]Jie Hu, Li Shen, Gang Sun,Squeeze-and-Excitation Networks, ILSVRC 2017 image classification winner; CVPR 2018 Oral
SIGAI特约作者
Fisher Yu
CV在读博士
研究方向:情感计算
猜你喜欢
- 2024-10-15 大道至简,仅需4行代码提升多标签分类性能
- 2024-10-15 精华文稿|迈向统一的点云三维物体检测框架
- 2024-10-15 STANet简单介绍 介绍stb-1
- 2024-10-15 AAAI2022丨创新奇智提出双注意力机制少样本学习 助力工业场景细粒度识别
- 2024-10-15 人工智能4—AI编辑人脸终于告别P一处而毁全图,注意力机制yyds
- 2024-10-15 首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
- 2024-10-15 首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
- 2024-10-15 当Non-local遇见SENet,微软亚研提出更高效的全局上下文网络
- 2024-10-15 南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
- 2024-10-15 FlexAttention:解决二次复杂度,将ViT输入提升至1008 | ECCV 2024
你 发表评论:
欢迎- 最近发表
-
- 在 Spring Boot 项目中使用 activiti
- 开箱即用-activiti流程引擎(active 流程引擎)
- 在springBoot项目中整合使用activiti
- activiti中的网关是干什么的?(activiti包含网关)
- SpringBoot集成工作流Activiti(完整源码和配套文档)
- Activiti工作流介绍及使用(activiti工作流会签)
- SpringBoot集成工作流Activiti(实际项目演示)
- activiti工作流引擎(activiti工作流引擎怎么用)
- 工作流Activiti初体验及在数据库中生成的表
- Activiti工作流浅析(activiti6.0工作流引擎深度解析)
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)