计算机系统应用教程网站

网站首页 > 技术文章 正文

手绘讲解~Attention注意力机制

btikc 2024-09-24 08:10:49 技术文章 17 ℃ 0 评论

前段时间研究chatgpt,transformer。transformer的核心就是注意力机制,至于模型结构倒是简单。

研究Attention注意力机制的过程中对为啥要用QKV产生了浓厚的兴趣,翻了N的的论文,看过无数的帖子,主打一个较真!

还是秉承简单的,让人能快速看懂,时候N久能大概回忆起来,能用简短几句话说清楚的理念,在白纸上亲自手写,手绘、扫描了对为啥要设计QKV的理解。

一句话,引入QKV是为了计算编码器和解码器状态关联度的

不废话,上图!


好久没写字了,写到第二张(其中写废了两张)时,手都哆嗦了,字迹稍显潦草。

本来在纸上写了关于对“投影”的理解,后来怕纸上乱七八糟的东西太多,影响简洁,用下面的文字描述一下:

为啥投影到一个空间呢?

此处的投影也就是乘以一个矩阵(矩阵乘法的意义在矩阵特征向量分解中有说明),也叫线性变换。

在一个标准、一个空间、一个坐标系下,能比较、好比较好计算。否则没有可比性,例如关公战秦琼、李元霸与李存孝、蒙古铁骑与古罗马军团方阵哪个更厉害?直接比,没法比,只有放到同一个标准下,例如,都放到古罗马竞技场、八角笼中;赤手空拳还是冷兵器,还是任选AK47,M16,子弹无限管够,最终幸存者就是胜利者,这样才有可比性。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表