赞
踩
论文名称:Semantic Self-segmentation for Abstractive Summarization of Long Legal Documents in Low-resource Regimes
AAAI官方预印版论文下载地址:https://www.aaai.org/AAAI22Papers/AAAI-3882.MoroG.pdf
官方软件demo:http://137.204.107.42:37338/
本文是2022年AAAI论文,关注法律文书生成式摘要。
本文关注的难点及对应的解决方案:
将长文本输入分割为semantically coherent chunks(标准是余弦相似度大于chunk内平均值,我感觉这个实在是可以说是非常的简单粗暴了),摘要中每一个句子都与某一最相似的chunk匹配(标准是ROUGE-1-P)。(用来做切分的语言模型legal-bert先在一个度量学习任务上微调过)
使用同一个模型来生成摘要(也有做数据增强的意义在),这个生成模型是直接套用的之前的生成式模型。
最后合并所有chunks的摘要为最终结果。
数据切分(先切分原文,然后将摘要与对应的原文chunk匹配,形成原文-摘要对)→摘要生成
数据切分阶段:
摘要生成阶段:直接用已有的生成模型。论文中比较了BART(quadratic Transformer)和LED(linear Transformer,能输入更长的序列)的base模型的效果。
优化:
baseline是PEGASUS(论文里没有写具体配置)和直接使用chunk最大token长度来进行truncation的BART、LED模型,此外比较了不同的chunk最大长度和最小长度的实验结果(显然长度越长效果越好。比较了一个GPU内存占比和结果的tradeoff):
仅使用10个或100个标记数据。结果证明了Se3方法在低资源条件下的效果:
语义连续chunk的效果,baseline是:1. 不考虑语义连续信息,直接用句子组成chunk。2. 使用BERT。3. 使用没有在度量学习任务上微调过的Legal-Bert。
官方没有给出代码,我发邮件问了作者还没有回复。
但是看起来这个代码倒是不难写,等我有需要了复现一下,跟demo展示的结果对比对比。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。