赞
踩
本章的主要内容有:
注意力机制简单来说就是:加权求和机制/模块
功能:对于集合 K ,求相对 Q 各个元素的权重,然后按权重相加形成 Q 要的结果
放到各个任务中检验,通过任务指标的提升证明模块的效果。
具体的注意力机制可以参考这篇博客:
https://blog.csdn.net/qq_43687860/article/details/122729748?spm=1001.2014.3001.5501
1、Soft AM:在求注意力分配概率分布的时候,对于输入句子X中任意一个单词都给出个概率,是个概率分布。
1、全局注意力 Global Attention
Decode端Attention计算时要考虑输Ecoder端序列中所有的词
2、局部注意力 Local Attention
存在问题:对RNN有注意力偏置问题
解决方案:Coverage机制可以缓解注意力偏置问题
例1:Q为确定值的句向量编码(句表示)
例2: Q为隐变量的句向量编码(句表示)
例3:对序列中某元素的真正上下文编码(词编码)
利用多头自注意力编码对一个句子编码可以起到类似句法分析器的作用
例:对同一序列自注意力编码
多头(Multi-Head)自注意机制就是做多次同样的事情(参数不共享),然后把结果拼接 。
参考文献:
国科大-胡玥老师-《自然语言处理》课件-第5章NLP中的注意力机制。
李宏毅课程http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。