首页 > 其他 > 详细

自注意力机制总结

时间:2019-10-12 21:36:00      阅读:172      评论:0      收藏:0      [点我收藏+]

假设现在有一个句子(s1,s2,s3),v是s的转置
第一个词和每一个词的内积 相似度越大 结果越大 s1v1 s1v2 s1v3
第二个词和每一个词的内积 s2
v1 s2v1 s2v3
第三个词和每一个词的内积 s3v1 s3v2 s3v3

横向在每一行内做softmax可以得到每个词在句子中的重要度
(a11,a12,a13)
(a21,a22,a23)
(a31,a32,a33)

根据注意力矩阵求和
c1 = a11s1+a21s2+a31s3
c2 = a21
s1+a22s2+a32s3
c3 = a31s1+a23s2+a33s3

数学解释技术分享图片

由上式可以看到,对于Attention机制的整个计算过程,可以总结为以下三个过程:

  • 根据 Query 与 Key 计算两者之间的相似性或相关性, 即 socre 的计算。
  • 通过一个 softmax 来对值进行归一化处理获得注意力权重值, 即 技术分享图片 的计算。
  • 通过注意力权重值对value进行加权求和, 即 技术分享图片 的计算。

知乎大佬链接

另外一个大佬

自注意力机制总结

原文:https://www.cnblogs.com/rise0111/p/11663907.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!