赞
踩
多头注意力(Multi-head Attention)机制是当前大行其道的Transformer、BERT等模型中的核心组件,但我一直没懂其内部到底是怎么做的,PyTorch提供的接口的众多参数也弄不清有什么用。今天抽个时间,结合论文和PyTorch源码,深入学习一下。
仅为个人理解,如有错误敬请指正!
PyTorch中的Multi-head Attention可以表示为:
MultiheadAttention ( Q , K , V ) = Concat ( head 1 , ⋯ , head h ) W O \text{MultiheadAttention}(Q, K, V) = \text{Concat}(\text{head}_1, \cdots, \text{head}_h)W^O MultiheadAttention(Q,K,V)=Concat(head1,⋯,headh)WO
其中
head i = Attention ( Q , K , V ) \text{head}_i=\text{Attention}(Q, K, V) headi=
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。