赞
踩
特征之间的交互是灵活显性的,而无结构的特征组合无法很好地进行提取。
E = [ e 1 , e 2 , e 3 , … , e m ] , e i ∈ R d , E ∈ R d × m \textbf{E}=[ \textbf{e}_1, \textbf{e}_2, \textbf{e}_3, …, \textbf{e}_m],\textbf{e}_i \in \mathbb{R}^d,\textbf{E} \in \mathbb{R}^{d×m} E=[e1,e2,e3,…,em],ei∈Rd,E∈Rd×m
通过多头注意力机制捕捉成对特征的复杂依赖
H
i
=
s
o
f
t
m
a
x
i
(
Q
K
T
d
K
)
V
,
H
i
∈
R
m
×
d
i
\textbf{H}_i=softmax_i(\frac{\textbf{Q}\textbf{K}^T}{\sqrt{d_\textbf{K}}})\textbf{V},\textbf{H}_i\in \mathbb{R}^{m×{d_i}}
Hi=softmaxi(dK
QKT)V,Hi∈Rm×di
Q
=
W
i
(
Q
)
E
,
K
=
W
i
(
K
)
E
,
V
=
W
i
(
V
)
E
\textbf{Q}={\textbf{W}_i}^{{(\textbf{Q})}}\textbf{E},\textbf{K}={\textbf{W}_i}^{{(\textbf{K})}}\textbf{E},\textbf{V}={\textbf{W}_i}^{{(\textbf{V})}}\textbf{E}
Q=Wi(Q)E,K=Wi(K)E,V=Wi(V)E
w
h
e
r
e
W
i
(
Q
)
,
W
i
(
K
)
,
W
i
(
V
)
∈
R
d
i
×
d
where\ \ {\textbf{W}_i}^{{(\textbf{Q})}},{\textbf{W}_i}^{{(\textbf{K})}},{\textbf{W}_i}^{{(\textbf{V})}}\in \mathbb{R}^{d_i×d}
where Wi(Q),Wi(K),Wi(V)∈Rdi×d
H
1
=
R
E
L
U
(
H
1
⊕
H
2
⊕
.
.
.
⊕
H
h
)
\textbf{H}^1=RELU(H_1 \oplus H_2\oplus...\oplus H_h)
H1=RELU(H1⊕H2⊕...⊕Hh)
加权的全连接图,其中边的权重则反映了不同特征交互的重要性。
在每个交互步(interaction step)中,每个节点聚合邻居节点的状态信息,然后根据其聚合信息和历史信息通过GRU和残差连接更新其节点状态。
加权的全连接图,其中边的权重则反映了不同特征交互的重要性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。