赞
踩
传送门:
我们的工作与CV中的 Zero-Shot Classification(零样本分类) 有关。
本文提出 few-shot 神经网络模型,使用一个统一的框架对charge prediction任务和 legal attribute prediction任务同时建模。
为了区分易混淆的 charges 并为 few-shot charges 提供额外信息,针对中国刑法中的所有charges,我们引入 10 个具有区分性的属性,图表1所示。对于每个 (charge, attribute)
pair,它会标记为 Yes
、No
或 NA
。
No
,在死亡(Death)上为 Yes
,在国家机关(State Organ)上为NA
。注意:具体案件的事实调查结果只能标记为 Yes
或 No
。判定某人犯有某种罪行时,事实应符合对特定指控的描述。因此,对于特定属性,特定案件的标签和相应charge的标签应相同或不冲突。换句话说,对于某个属性,案件和charge的标签只能是 (Yes, Yes)
, (No, No)
, (Yes, NA)
或 (No, NA)
。
一个案件的事实描述可当作一个单词序列(word sequence) x = { x 1 , x 2 , . . . , x n } \mathbf{x}=\{x_1,x_2,...,x_n\} x={x1,x2,...,xn},其中 n n n 表示序列长度, x i ∈ T x_i\in{T} xi∈T, T T T是a fixed vocabulary(固定词汇表)。给定事实描述 x \mathbf{x} x, charge prediction任务是预测一个 charge y ∈ Y y\in{Y} y∈Y,其中 Y {Y} Y 是一个charge集合。
attributes prediction任务可视为一个二分类任务。输入与charge prediction任务一样都是事实描述 x \mathbf{x} x,其目标是根据事实预测属性的 fact-findings p = { p 1 , p 2 , . . . , p k } \mathbf{p}=\{p_1,p_2,...,p_k\} p={p1,p2,...,pk}。其中, k k k 是所选择属性的数量, p i ∈ { 0 , 1 } p_i\in{\{0,1\}} pi∈{0,1} 是一个确定属性的标签。
如图2所示,fact encoder 将离散输入序列编码为连续隐藏状态。由于可以提取语义含义,采用 LSTM 作为 fact encoder。LSTM是RNN的一个变体,它可以捕捉长期依赖关系。
给定事实描述 x \mathbf{x} x,attribute predictor 要预测每个属性的标签。受(Yang et al., 2016)启发,使用一个 attention mechanism 从事实中选择相关信息并生成 attribute-aware(属性感知) 事实表示。
如图2所示,attribute predictor 使用 hidden states 序列
h
=
{
h
1
,
h
2
,
.
.
,
h
n
}
\mathbf{h}=\{\mathbf{h}_1,\mathbf{h}_2,..,\mathbf{h}_n\}
h={h1,h2,..,hn} 作为输入。之后 attribute predictor 对所有属性计算 注意力权重
a
=
{
a
1
,
a
2
,
.
.
,
a
k
}
\mathbf{a}=\{\mathbf{a}_1,\mathbf{a}_2,..,\mathbf{a}_k\}
a={a1,a2,..,ak},其中
a
i
=
{
a
i
,
1
,
a
i
,
2
,
.
.
,
a
i
,
n
}
.
∀
i
∈
[
1
,
k
]
and
j
∈
[
1
,
n
]
,
a
i
,
j
\mathbf{a}_i=\{\mathbf{a}_{i,1},\mathbf{a}_{i,2},..,\mathbf{a}_{i,n}\}. \forall{i}\in{[1,k] \text{ and } j\in{[1,n]}, a_{i,j}}
ai={ai,1,ai,2,..,ai,n}.∀i∈[1,k] and j∈[1,n],ai,j 计算公式如下:
a
i
,
j
=
exp
(
tanh
(
W
a
h
j
)
T
u
i
)
∑
t
exp
(
tanh
(
W
a
h
t
)
T
u
i
)
(3)
a_{i,j}=\frac{\exp(\tanh(\mathbf{W}^a\mathbf{h}_j)^T\mathbf{u}_i)}{\sum_t{\exp(\tanh(\mathbf{W}^a\mathbf{h}_t)^T\mathbf{u}_i)}}\tag{3}
ai,j=∑texp(tanh(Waht)Tui)exp(tanh(Wahj)Tui)(3)
其中,
u
i
\mathbf{u}_i
ui 表示第
i
i
i 个属性的上下文向量,用于计算一个元素对属性
i
i
i 的 informative(提供有用信息),
W
a
\mathbf{W}^a
Wa 表示所有属性共享的权重矩阵。之后,我们获得事实
g
=
{
g
1
,
.
.
.
,
g
k
}
\mathbf{g}=\{\mathbf{g}_1,...,\mathbf{g}_k\}
g={g1,...,gk} 属性感知(attribute-aware) 表示,and
g
i
=
∑
t
a
i
,
t
h
t
\mathbf{g}_i=\sum_t{a_{i,t}\mathbf{h}_t}
gi=∑tai,tht。最后,使用表示
g
g
g 将其投影到标签空间中,并使用softmax函数来获取最后的预测结果
p
=
[
p
1
,
p
2
,
.
.
.
,
p
k
]
\mathbf{p}=[p_1,p_2,...,p_k]
p=[p1,p2,...,pk],其中
p
i
p_i
pi 是属性
i
i
i 的预测结果,其计算方法如下:
z
i
=
s
o
f
t
m
a
x
(
W
i
p
g
i
+
b
i
p
)
p
i
=
a
r
g
max
(
z
i
)
(4)
其中,
z
i
\mathbf{z}_i
zi 表示 Yes and No 上的预测概率分布。
W
i
p
and
b
i
\mathbf{W}_i^p \text{ and }\mathbf{b}_i
Wip and bi 是属性
i
i
i 的权值矩阵和偏移向量。
为了整合事实描述和所有属性的 fact-findings,我们使用 无属性(attribute-free) 和 属性感知(attribute-aware) 表示来预测输出层案件最终预测的charge。所有 charges 的预测分布
y
y
y 计算如下:
r
=
∑
i
g
i
k
,
v
=
e
⊕
r
,
y
=
softmax
(
W
y
v
+
b
y
)
.
(5)
其中,
r
\mathbf{r}
r 表示属性感知表示的均值。
r
\mathbf{r}
r 与
e
\mathbf{e}
e 串联形成最终的事实表示
v
\mathbf{v}
v。
W
y
and
b
y
\mathbf{W}^y \text{ and }\mathbf{b}^y
Wy and by 是输出层的权值矩阵和偏移向量。
本模型的训练目标函数由两部分组成。
NA
时,相应案件的标签可以为 Yes
或 No
。因此,仅当 charge 的属性是 Yes
或 No
时,才将交叉熵加到属性损失上。最后,属性损失表示如下:Yes
或 No
,则
I
i
=
1
I_i=1
Ii=1,否则
I
i
=
0
I_i=0
Ii=0。显然,
z
i
z_i
zi 表示ground-truth 标签,
z
^
i
\hat{z}_i
z^i 表示在 Yes
或 No
上的预测概率分布。最终的损失函数
L
\mathcal{L}
L 是通过
L
c
h
a
r
g
e
\mathcal{L}_{charge}
Lcharge 加
L
a
t
t
r
\mathcal{L}_{attr}
Lattr 实现的:
L
=
L
c
h
a
r
g
e
+
α
⋅
L
a
t
t
r
(8)
\mathcal{L}=\mathcal{L}_{charge}+\alpha·\mathcal{L}_{attr}\tag{8}
L=Lcharge+α⋅Lattr(8)
其中,
α
\alpha
α 是一个超参数,用于平衡损失函数中两个部分的权重。
数据获取:由于以前 works 中没有公开可用的数据集来进行 charge 预测,我们从中国裁判文书网(China Judgments Online)收集中国政府公布的刑事案件。由于每个案件具有 well-structured,可以分为事实(fact)、法院观点(court view) 和 处罚结果(penalty result)等几个部分,我们选择每个案件的事实部分作为输入。此外,我们可以通过正则表达式轻松地从惩罚结果中提取 charge。我们已手动检查了提取的 charge,几乎没有错误。
数据过滤:一些真实的案件包含多个被告和多项charges,由于其过于复杂,所以我们删除了判决中包含一项以上charges的案件。此外,为了检查我们的方法在 few-shot charges 中的性能,我们保留了 149 个不同的 charges (比 (Luo et al., 2017) 高出3倍),少有10个案例。
预处理:随机选择约40万个案件并构建三个不同规模的数据集,定义为 Criminal-S(small), Criminal-M(medium) 和 Criminal-L(large)。这三个不同的数据集包含相同数量的 charges,但案件数量却不同。详细统计信息如表2所示。
如前一部分所述,我们提出引入鉴别性属性来增强charge预测能力。为了选择这些属性,
使用选定的10个属性,我们对所有charges进行低成本注释。具体来讲,只需要手动为 149 个charges (而不是所有案件) 的 10 个属性进行标注。由于选择的属性具有区分性和明确性,我们要求这些注释者为每个注释达成协议。总共,我们花了不到10个小时进行注释。
baselines:包括典型的文本分类模型和一个charge预测模型。
模型设置:
我们的方法的特点是将注意力机制(attention mechanism)和属性感知(attribute-aware)表示相结合。因此,分别设计 ablation test(消融试验) 来研究这些模块的有效性。
在本部分中,利用一个代表性的案件,以直观地说明预测属性如何帮助提高charge预测的性能。在本案中,被告被判犯有intentional injury(故意伤害罪)。通常很难判断案件是 affray(滋事罪(打架斗殴类)) 还是intentional injury(故意伤害),因为它们都与暴力有关。两者的一个重要区别是intentional injury具有physical injury(身体伤害)的特征,而affray则没有。
所以,我们认为,身体伤害的属性是本案的charge预测中必不可少的。如图6所示,本方法正确地预测身体伤害的标签为 Yes
,从而将charge预测为故意伤害。相反,LSTM-200模型预测不正确,其预测为 affray。此外,在预测属性故意伤害时,我们直观地看到此案例的热图。背景颜色较深的单词具有较高的关注度。从下图中,我们观察到注意机制可以捕获与当前属性相关的关键 patterns and semantics。
本文关注根据刑事案件的事实描述对charge预测。为了解决 few-shot 和易混淆 charges 的问题,我们引入具有辨别力的法律属性,并提出一个新颖的基于属性的多任务学习模型来进行charge预测。具体来讲,我们的模型通过利用基于属性的注意力机制来联合学习无属性和属性感知事实表示。
未来方向:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。