网站首页 > 技术文章正文

手绘讲解~Attention注意力机制

btikc 2024-09-24 08:10:49 技术文章 17 ℃ 0 评论

前段时间研究chatgpt,transformer。transformer的核心就是注意力机制，至于模型结构倒是简单。

研究Attention注意力机制的过程中对为啥要用QKV产生了浓厚的兴趣，翻了N的的论文，看过无数的帖子，主打一个较真！

还是秉承简单的，让人能快速看懂，时候N久能大概回忆起来，能用简短几句话说清楚的理念，在白纸上亲自手写，手绘、扫描了对为啥要设计QKV的理解。

一句话，引入QKV是为了计算编码器和解码器状态关联度的。

不废话，上图！

好久没写字了，写到第二张（其中写废了两张）时，手都哆嗦了，字迹稍显潦草。

本来在纸上写了关于对“投影”的理解，后来怕纸上乱七八糟的东西太多，影响简洁，用下面的文字描述一下：

为啥投影到一个空间呢？

此处的投影也就是乘以一个矩阵（矩阵乘法的意义在矩阵特征向量分解中有说明），也叫线性变换。

在一个标准、一个空间、一个坐标系下，能比较、好比较好计算。否则没有可比性，例如关公战秦琼、李元霸与李存孝、蒙古铁骑与古罗马军团方阵哪个更厉害？直接比，没法比，只有放到同一个标准下，例如，都放到古罗马竞技场、八角笼中；赤手空拳还是冷兵器，还是任选AK47，M16，子弹无限管够，最终幸存者就是胜利者，这样才有可比性。

上一篇：注意力机制及其理解
下一篇：注意力机制可解释吗?这篇ACL 2019论文说

网站首页 > 技术文章正文

手绘讲解~Attention注意力机制

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

手绘讲解~Attention注意力机制

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: