网站首页 > 技术文章 正文
前段时间研究chatgpt,transformer。transformer的核心就是注意力机制,至于模型结构倒是简单。
研究Attention注意力机制的过程中对为啥要用QKV产生了浓厚的兴趣,翻了N的的论文,看过无数的帖子,主打一个较真!
还是秉承简单的,让人能快速看懂,时候N久能大概回忆起来,能用简短几句话说清楚的理念,在白纸上亲自手写,手绘、扫描了对为啥要设计QKV的理解。
一句话,引入QKV是为了计算编码器和解码器状态关联度的。
不废话,上图!
好久没写字了,写到第二张(其中写废了两张)时,手都哆嗦了,字迹稍显潦草。
本来在纸上写了关于对“投影”的理解,后来怕纸上乱七八糟的东西太多,影响简洁,用下面的文字描述一下:
为啥投影到一个空间呢?
此处的投影也就是乘以一个矩阵(矩阵乘法的意义在矩阵特征向量分解中有说明),也叫线性变换。
在一个标准、一个空间、一个坐标系下,能比较、好比较好计算。否则没有可比性,例如关公战秦琼、李元霸与李存孝、蒙古铁骑与古罗马军团方阵哪个更厉害?直接比,没法比,只有放到同一个标准下,例如,都放到古罗马竞技场、八角笼中;赤手空拳还是冷兵器,还是任选AK47,M16,子弹无限管够,最终幸存者就是胜利者,这样才有可比性。
- 上一篇: 注意力机制及其理解
- 下一篇: 注意力机制可解释吗?这篇ACL 2019论文说
猜你喜欢
- 2024-09-24 代码详解:从头开始学习注意力机制
- 2024-09-24 深入理解注意力机制
- 2024-09-24 图解机器学习中的自注意力机制
- 2024-09-24 ASTGCN:基于时空注意力机制的图卷积神经网络
- 2024-09-24 注意力机制可解释吗?这篇ACL 2019论文说
- 2024-09-24 注意力机制及其理解
- 2024-09-24 包学包会,这些动图和代码让你一次读懂「自注意力」
你 发表评论:
欢迎- 02-20利用神经网络模型检测摄像头上的可疑行为
- 02-20直击心灵:高频核心听力你了解吗?_高频听力的正常范围值是多少
- 02-20YOLOv8 POSE+XGBoost进行人体姿态检测
- 02-20100个篮球英文术语详细解释,从此听懂NBA解说
- 02-20最全紧固件中英文对照,外贸必备词典一
- 02-20带你开发一个视频动态手势识别模型
- 02-20详细介绍一下Java基础中HashMap如何进行扩容操作?
- 02-20GTX 1070 Ti显卡评测:你会购买哪一款?
- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)