TransE,线性组合构造知识关系,
f
r
(
h
,
t
)
=
−
∥
h
+
r
−
t
∥
1
/
2
f_r(h, t) = - \| \bold h + \bold r - \bold t\|_{1 / 2}
fr(h,t)=−∥h+r−t∥1/2
TransH,不同的关系,对应不同的超平面,计算转到超平面中的位移,然后计算,
h
⊥
=
h
−
w
r
⊤
h
w
r
,
t
⊥
=
t
−
w
r
⊤
t
w
r
,
f
r
(
h
,
t
)
=
−
∥
h
⊥
+
r
−
t
⊥
∥
2
2
\bold h_\bot = \bold h - \bold w_r^\top \bold h \bold w_r,\ \bold t_\bot = \bold t - \bold w_r^\top \bold t \bold w_r,\ f_r(h, t) = - \| \bold h_\bot + \bold r - \bold t_\bot\|_2^2
h⊥=h−wr⊤hwr,t⊥=t−wr⊤twr,fr(h,t)=−∥h⊥+r−t⊥∥22
TransR,根据关系映射到不同的子空间中计算,
h
⊥
=
M
r
1
h
,
t
⊥
=
M
r
2
t
,
f
r
(
h
,
t
)
=
−
∥
h
+
r
−
t
∥
2
2
\bold h_\bot = \bold M_r^1 \bold h,\ \bold t_\bot = \bold M_r^2 \bold t,\ f_r(h, t) = - \| \bold h + \bold r - \bold t\|_2^2
h⊥=Mr1h,t⊥=Mr2t,fr(h,t)=−∥h+r−t∥22
关系使用矩阵表示(不同模型假设不同)
语义匹配模型
RESCAL及其变种 P22
头表示 × 关系定义矩阵 × 尾表示
神经网络
SME,
f
r
(
h
,
t
)
=
g
u
(
h
,
r
)
⊤
,
g
v
(
t
,
r
)
f_r(h, t) = g_u(\bold h, \bold r)^\top, g_v(\bold t, \bold r)
fr(h,t)=gu(h,r)⊤,gv(t,r)
NTN,
f
r
(
h
,
t
)
=
r
⊤
tanh
(
h
⊤
M
r
t
+
M
r
1
h
+
M
r
2
t
+
b
r
)
f_r(h, t) = \bold r^\top \tanh(\bold h^\top \bold M_r \bold t + \bold M_r^1 \bold h + \bold M_r^2 \bold t + \bold b_r)
fr(h,t)=r⊤tanh(h⊤Mrt+Mr1h+Mr2t+br)
模型训练
开放世界假设:知识图谱仅包括正确的事实,那些不在其中的要么是错误的,要么是缺失的
逻辑拟合,分数更加绝对地偏向正例或负例(逻辑损失)
正例比负例的分数高(成对排序损失)
封闭世界假设:但凡未出现的事实都是错误的
所有不存在的事实都拟合到负例(平方损失)
TransE
表示:向量表示实体和关系,事实表示为
(
h
,
r
,
t
)
(\bold h, \bold r, \bold t)
(h,r,t)
势能函数
对真实事实三元组,要求
h
+
r
=
t
\bold h + \bold r = \bold t
h+r=t,否则不满足
f
(
h
,
r
,
t
)
=
∥
h
+
r
−
t
∥
2
f(h, r, t) = \|\bold h + \bold r - \bold t\|_2
f(h,r,t)=∥h+r−t∥2
目标函数
∑
(
h
,
r
,
t
)
∑
(
h
′
,
r
′
,
t
′
)
max
(
0
,
γ
+
f
(
h
,
r
,
t
)
−
f
(
h
′
,
r
′
,
t
′
)
)
\sum_{(h, r, t)} \sum_{(h^\prime, r^\prime, t^\prime)} \max (0, \gamma + f(h, r, t) - f(h^\prime, r^\prime, t^\prime))
∑(h,r,t)∑(h′,r′,t′)max(0,γ+f(h,r,t)−f(h′,r′,t′))
随机选择实体
h
′
h^\prime
h′(或
t
′
t^\prime
t′),替换为
(
h
′
,
r
,
t
)
(h^\prime, r, t)
(h′,r,t)或者
(
h
,
r
,
t
′
)
(h, r, t^\prime)
(h,r,t′)
在适合关系
r
r
r的实体集合中随机选取
RESCAL
用三维张量表示知识图谱
行——头实体,列——尾实体,宽——关系
0/1表示是否成立
三维张量分解
Y
k
=
A
R
k
A
⊤
,
k
=
1
,
2
,
…
,
m
\bold Y_k = \bold A \bold R_k \bold A^\top ,\ k = 1, 2, \ldots, m
Yk=ARkA⊤,k=1,2,…,m
使用较小的
R
k
r
×
r
\bold R_k^{r \times r}
Rkr×r拟合高维
Y
k
n
×
n
\bold Y_k^{n \times n}
Ykn×n
目标函数:
min
A
,
R
k
=
f
(
A
,
R
k
)
+
g
(
A
,
R
k
)
\min_{\bold A, \bold R_k} = f(\bold A, \bold R_k) + g(\bold A, \bold R_k)
minA,Rk=f(A,Rk)+g(A,Rk),其中
g
g
g为正则项
f
(
A
,
R
k
)
=
1
2
(
∑
k
∥
Y
k
−
A
R
k
A
⊤
∥
F
2
)
f(\bold A, \bold R_k) = \frac 12 (\sum_k \|\bold Y_k - \bold A \bold R_k \bold A^\top\|_F^2)
f(A,Rk)=21(∑k∥Yk−ARkA⊤∥F2)
g
(
A
,
R
k
)
=
1
2
λ
(
∥
A
∥
f
2
+
∑
k
∥
R
k
∥
f
2
)
g(\bold A, \bold R_k) = \frac 12 \lambda(\|\bold A\|_f^2 + \sum_k\|\bold R_k\|_f^2)
g(A,Rk)=21λ(∥A∥f2+∑k∥Rk∥f2)
前者分量形式
∑
i
,
j
,
k
(
y
i
j
k
−
a
i
⊤
R
k
a
j
)
2
\sum_{i,j,k} (y_{ijk} - \bold a^\top_i \bold R_k \bold a_j)^2
∑i,j,k(yijk−ai⊤Rkaj)2
后者可以视为分数,正例应趋于1,反例应趋于0
应用:知识库补全
存在严重的事实不完备性(封闭 / 开放)
评测任务
事实分类
链接预测
事实、文本、知识统一化学习
刻画知识库的结构和性质
刻画文本中的语言单元的分布信息
相近含义的知识符号和语言符号更加接近
词表示与知识表示的混合学习
嵌入到同一个空间
处理图谱中缺失的实体(无法处理未出现的关系)
联合嵌入模型
KG:
L
(
h
,
r
,
t
)
=
log
{
P
(
h
∣
r
,
t
)
⋅
P
(
t
∣
h
,
r
)
⋅
P
(
r
∣
h
,
t
)
}
L(h, r, t) = \log \{P(h| r,t) \cdot P(t|h, r) \cdot P(r | h, t) \}
L(h,r,t)=log{P(h∣r,t)⋅P(t∣h,r)⋅P(r∣h,t)},条件概率依靠打分(位移模型)
Text:
L
(
T
)
=
∑
w
,
v
n
w
v
log
{
P
(
w
∣
v
)
}
L(T) = \sum_{w, v} n_{wv}\log \{P(w| v)\}
L(T)=∑w,vnwvlog{P(w∣v)}
对齐
锚文本对齐:
L
(
A
A
)
=
∑
w
,
v
log
{
P
(
w
∣
e
v
)
}
L(AA) = \sum_{w,v} \log\{P(w|e_v)\}
L(AA)=∑w,vlog{P(w∣ev)},由锚文本对应实体
实体描述对齐:KaTeX parse error: Undefined control sequence: \and at position 38: … I_{[w_h \in V \̲a̲n̲d̲ ̲w_t \in V]} \cd…
可以对于实体
e
e
e对应描述文本中的每个词,定义概率分布
P
(
w
∣
e
)
P(w | e)
P(w∣e)