赞
踩
暴露偏差问题指的是在关系抽取任务中,训练阶段输入的是gold entity(ground truth entity),而在预测阶段是实体识别模型预测的实体。
导致训练和推理之间存在差距。
TPLinker整体标注Tag框架是基于token pair进行的,其本质上就是一个span矩阵。这种方法也可以成为Multi-Head方法。
Multi-Head方法重点在于构建一个==[batch_size, seq_len, seq_len, hidden]==维度的矩阵(后续成为table),相当于每一个token embedding都逐个乘以sequence中的其他token embedding,得到token与其他所有token之间一种交互特征,每一个单元格都可以代表一个token pair,进而通过其他方提取实体关系及关系类型。
TPLinker将联合抽取任务转化为Token Pair Linking问题。给定一个句子,两个位置p1,p2和一个特定的关系r,TPLinker回答三个Yes / No伪问题:
" p1和p2分别是否是同一个实体的起点和终点? ",
" p1和p2分别是否是两个具有r关系的实体的起点? ",
" p1和p2分别是否是两个具有r关系的实体的终点? "。
为此设计了一个为每个关系标注3个token链接矩阵的握手标注方案来回答上述3个问题。我们在上述提到的table为基础,构建了如下的标注框架。
其中的1和2的区别就是关系方向的问题。我们看到在下三角矩阵当中也有1存在,文章为了为防止稀疏计算,下三角矩阵不参与计算;虽然实体标注不会存在于下三角矩阵种,但关系标注是会存在的。如果关系存在于下三角,则将其转置到上三角,并有“标记1”变为“标记2”。
如此已经解决的上面提到的SEO问题了(关系重叠问题当中说了),但是EPO的问题在这里还没有解决,因此论文使用了下面的”硬核“解决办法。
在这里联合抽取任务被解构为2N + 1个序列标注子任务,其中N表示预定义关系类型的数量(关系标签个数),每个子任务构n*(n+1)/2的标建一个长度为签序列,其中n为输入句子的长度。
红色为实体对的头,蓝色为实体对的尾,紫色为检测到的实体,1和2代表这对实体关系的方向。
TPLinker的解码过程为:
在这里可以明显地察觉到,TPLinker在遇到存在复杂关系的数据集时会比较费劲。为了解决EPO问题将存在关系的实体对在每个关系标签上都要进行判断,但文章中说的是。。。
优点:
缺点:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。