赞
踩
AMR 可以用在很多下游任务,比如: 信息提取,文本摘要,问答,对话建模等
【information extraction (Rao et al., 2017; Wang et al., 2017; Zhang and Ji, 2021), text summarization, (Liao et al., 2018; Hardy and Vlachos, 2018) question answering (Mitra and Baral, 2016; Sachan and Xing, 2016) and dialogue modeling (Bonial et al., 2020)】
最近 AMR 的发展是基于 seq2seq 的网络的,取得了很大成功
seq2seq 模型不需要复杂的数据处理工作,并且天然地适合采用 辅助任务训练 以及 预训练的 encoder-decoder的方法
之前的工作 (Xu et al., 2020; Wu et al., 2021) 已经展示了 AMR parsing 任务可以用 co-training 和特定的辅助任务来提升
然而现在采用 辅助任务 来提高 AMR 解析的任务存在这么几个问题,尚未弄清楚:
为了解决上面的三个问题,我们的 method 设计了三个部分:
本文贡献:
结果非常好,在 AMR2.0 上达到了 85.2 的match 分数,在 AMR3.0上达到了 83.9,目前是 state-of-the-art
boy
被引用了两次,但是 SRL 中没有任何的重用leave
和 want
,the boy
, to leave
)这个 predicate 如果是一个拥有多于一个 token 的 span,就将这个 span 用它的 head token 来代替,例如 the boy -> boy; to leave -> leave
这样更接近 AMR 中的 concept 的表示方法want
开始,那么遍历的顺序是 want->boy->leave
然后是 leave-01->boy
到这个 boy 的时候直接把这个边指向第一次的 boy
节点在上述的处理中,只能保证像 boy
这种词被重用,但是像 leave
和 leave-01
其实是一个东西,但是却出现了两次,没有进行重用,他们也应该被 merge 成一个 node
但是这个操作不能简单的从 SRL 的 annotation 中继续进行,为了解决这个问题,我们又提出了一种新的方法,在图四中展示
这个算法将之前的 Connectivity Formation 的结果作为输入,首先合并那些有相同 token 的叶子节点,这一步不会产生任何误差,因为 leaf-nodes 的合并不会产生误差,只是把相同的token 进行整合
第二步是将那些重要的 predicate(谓词 / 述词)进行和并,比如 want , leave
,这一步会首先检查一个 predicate 是否在其他 span 的 argument 中出现过,并且是否这个 predicate 直接 depend on 其他 span 的 predicate,如果这两个条件都符合,那么算法将会将这个 predicate 和符合条件的那个 span 进行融合(图4 (3)中,因为 leave-01 出现在 to leave 这个 span 中,而且 leave 依赖于 the
最终如果当前的结构在删除 root node 和 root-edges 之后依然连通的话,会删除 root node 和 root edges
在 AMR2.0 的数据集上和 AMR3.0 的数据集上进行实验
我们还在一些其他的分布不同的数据中进行了实验(BIO, TLP, News3),这些数据集的数据量都很小
对于SRL, 我们使用了四种不同的 AMRization setting 方式:
:multi-sentence
和 relation :snt
来表示虚拟的 root
和 edges
对于 DP, 采取 4 种不同的 AMRization settings:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。