网站首页 > 技术文章 正文
萧箫 转载自 商汤AI
量子位 | 公众号 QbitAI
Transformer很受欢迎,但它架构上的不少问题依旧令人头疼。
典例之一就是其中的Softmax Attention模块,虽然能捕捉长距离依赖关系,但由于Softmax算子关于序列长度的二次空间和时间复杂性,导致难以扩展。
虽然也有用核方法、稀疏注意力机制等来近似Softmax算子,以降低时间空间复杂度,但近似操作本身存在的误差使得其效果很难超越Softmax Attention。
为此,商汤多模态研究组想到,与其近似Softmax,为何不重新设计一种方式“平替”Softmax?
他们提出了一种叫做cosFormer的新方法,论文目前已经登上ICLR 2022。
一方面,cosFormer在时间空间复杂度关于序列长度为线性复杂度的同时,其性能接近或者超越Softmax Attention;
另一方面,它也在LRA benchmark上取得了SOTA,其中y轴表示性能,x轴表示速度,圆圈大小表示内存。
一起来看看。
此前的Softmax有什么问题?
Softmax Attention
Softmax Attention的计算方式是这样的:
线性Attention
通过分析我们发现,性能瓶颈的主要原因是exp操作,如果相似度函数可以表示为
那么
根据矩阵运算的结合律:
上式可以变换为:
经过计算后可以得到该方法的时间复杂度为,即关于序列长度是一次的。
Softmax Attention和线性Attention的计算方式可以用下图概括:
所以接下来的会介绍的选择,以及核心的reweighting操作。
Softmax的两大性质
我们经过分析以及实验,归纳出Softmax Attention中比较重要的性质,这两个性质可以指导我们的模型设计:
- 注意力矩阵的非负性
- 局部注意力的放大(非极大值抑制)
对于第一点,我们有如下实验进行验证(模型结构为RoBERTa):
这里Loss表示验证集损失(越低越好),其余指标均为准确率(越高越好),可以看到,当保证了注意力矩阵的非负性之后,可以达到较好的效果。基于该实验,我们选择为ReLU函数。
对于第二点,我们的方式是在注意力矩阵中引入先验locality信息,观察Softmax注意力矩阵,如下图所示,我们发现其注意力矩阵的权重在对角线附近很集中:
所以我们的方法需要在加了reweighting操作后也更加集中在对角线附近。注意并非所有的有类似权重的函数均适用,这个reweighting的函数需要跟前面的QK一样可以拆分成两个矩阵的乘法的形式。
至此,就可以引入我们的cosFormer了。
cosFormer如何超越Softmax?
我们的方法基于线性Attention,首先给出符号定义:
根据之前的分析,我们选择了:
可得:
为了进行reweighting操作,并且同时保证线性Attention的计算方式依然成立,我们选择了cos函数:
展开可得:
为了便于展示,我们把它记作:
最终得到:
上式和线性Attention的计算方式一致,经过分析不难得出时间复杂度依然是O(N)。
具体性能究竟有多好?
我们在单向模型,双向模型以及LRA benchmark上测试了我们的方法,均取得了非常不错的效果。
单向语言模型,指标表示困惑度(越低越好):
双向语言模型,指标表示准确率(越高越好):
LRA benchmark:
性能实验,指标表示准确率(越高越好):
内存速度实验,指标表示速度(越高越好,如果内存溢出,则标记为叉):
目前代码已开源,感兴趣的小伙伴们可以戳下方地址了解了~
论文地址:
https://arxiv.org/abs/2202.08791
部分开源代码:
https://github.com/OpenNLPLab/cosFormer
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
猜你喜欢
- 2024-10-12 动手实现卷积神经网络 卷积神经网络教程
- 2024-10-12 【机器学习】Sigmoid和Softmax的区别
- 2024-10-12 视觉Transformer中ReLU替代softmax,DeepMind新招让成本速降
- 2024-10-12 首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
- 2024-10-12 RBF-Softmax:让模型学到更具表达能力的类别表示
- 2024-10-12 深度学习入门指南:25个初学者需要知道的概念
- 2024-10-12 英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
- 2024-10-12 5分钟 NLP:Hugging Face 主要类和函数介绍 ??
- 2024-10-12 Softmax简介 简述softmax回归与线性回归相同与不同
- 2024-10-12 深度残差学习在图像识别中的应用综述
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)