当前位置:   article > 正文

self attention 摘自李宏毅老师公开课_李宏毅 qkv

李宏毅 qkv
我自己浅显的理解:QKV分别代表“查询标准”,“待查询指标”,和“本质”。Q是a去查询的时候,带着的查询标准。K是任何单字被查询的时候,展现出来的“待查询指标”。V是每个单字提取出来的本质。
  • 1

我打个单身汉找对象的比方吧。假设一个人要找对象,他一共有十个潜在的人选(包括他自己,这里请忽略性别)。Q代表他的择偶标准(比如说外形7分,年收入100万,年龄25岁以下,房子豪华)。K代表一个目标对象表现出来的指标(比如努力打扮让外形变成了6分,装成年收入60万,显得很年轻26岁,房子装修得还不错)。V代表一个目标对象本质的指标(比如这个人本质是个外形4分的人,年收入实际只有40万,实际年龄32岁)。那么Q和K相乘,实际上就是“择偶标准”和“表现出来的样子”里的匹配程度。然后通过这个匹配程度,和每个对象的本质数值做一个加权求和,出来的结果就是找到的对象最后所包含的数值。

这里有两个点可以注意一下:第一个就是你未必最喜欢你自己。你跟自己的QK相似度未必是最高的。第二就是QKV本质其实可以是一样的。比如如果在一个平行世界里,人们的择偶标准和他表现出来的样子以及他的本质完全一致,那么QKV没有必要存在。QKV存在的意义就是模拟这类“我想要的”和“每个人表现出来的”以及“每个人实际的”样子是不一样的情况。但这里也有一个假设,就是本质上QKV乘以的都是同一个东西,所以同一个词的q,k,v不会差得太离谱,类比到相亲,你可以理解为一个外形3分的人很难装成外形9分,一个年收入10万的人很难装成年收入500万。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/351190
推荐阅读
相关标签
  

闽ICP备14008679号