赞
踩
前言:谷歌研究人员提出了PEGASUS模型,用于提取文章摘要。今天就对PEGASUS模型做简单介绍。
论文
源码
研究人员假设,预训练目标越接近下游任务,那么就能更快更好的微调效果。为此,他们设定下游语言任务为“提取文本摘要”,而预训练目标为“生成间隙句子”(Gap Sentences Generation)。
研究人员提出了一个自监督的预训练来生成文本摘要, 重点在于预训练的时候的目标是把生成间隙句子(GSG), 所以在提取文本摘要的时候,简单的finetuning有很大的提升。
随机mask掉一部分句子,然后将Gap sentence直接拼接,作为一个“伪摘要”。 mask调的句子则被[Mask]替换掉,为了更接近我们的下游任务,我们选择在文章中比较重要的句子。
GSR(gap sentence ratio)是GSG(Gap Sentences Generation)的超参, 指的是文档中选择间隔句子的个数除以句子总数,相当于其他研究中的mask比例。
论文中采用3种策略来选取gap sentence
在这个公式中,每个句子是被独立计算的并从中选取top-m,即Ind。
研究者还认为,可以通过基于贪心思想最大化已选取句子集合和剩余文档之间的ROUGE1-F1,从而有序地将top-m选出,即Seq,具体算法如下,其中S为已选出句子的集合,D为文档所有句子集合。
当计算ROUGE1-F1时,又可将n-grams作为一个集合,即Uniq;或者重复计算同一n-gram作为原始组合,即Orig。这就使得Principal选择策略有4中组合,可选参数为Ind/Seq和Orig/Uniq。
下图是文档样例,该样例源于C4语料库。其中分别用不同颜色表示,提取的gap sentence结果
采用BERT的配置,研究人员人采用mask15%的输入文本,其中80%被替换成[MASK],10%保持不变,10%替换为其他token。将MLM作为Transformer encoder预训练的单一目标函数或者和GSG一同作为目标函数,当为单一目标函数时,微调下有任务时,Transformer的decoder和encoder共享所有参数。
下图展示了GSG和MLM如何同时应用到同一个样例。然而,研究人员发现MLM在大规模的预训练步骤并不能提升下游任务,且在PEGASUS_LARGE的最终模型中没有选择MLM。
PEGASUS的基础架构就是标准的Transformer的encoder-decoder,GSG和MLM被同时作为预训练目标用于该例子。原始有三个句子。一个句子用[MASK1]遮挡,且作为文本生成目标(GSG)。其余两个句子保持和输入一致,且被[MASK2]随机遮挡(MLM)。
实验采用和bert一样的两种配置,一个是base版的 一个是large版的。具体参数如下PEGASUS_BASE L = 12, H = 768, F = 3072, A = 12; PEGASUS_LARGE had L = 16, H = 1024, F =4096, A = 16, 其中, L 为encoder和decoder的层数(比如Transformer的block),H为隐藏层大小, F为前馈层大小,A为自注意力头的个数. bert的实验两种版本参数为(BERT_BASE L=12, H=768, A=12 ;BERT_LARGE L=24, H=1024, A=16)
研究人员在C4和HugeNews上训练一个使用抽样GSR的pegasus模型,并随机抽取重要句子。此表中报告了更新后的结果。
语料库/下游任务 | C4 | HugeNews | Mixed & Stochastic |
---|---|---|---|
xsum | 45.20/22.06/36.99 | 47.21/24.56/39.25 | 47.60/24.83/39.64 |
cnn_dailymail | 43.90/21.20/40.76 | 44.17/21.47/41.11 | 44.16/21.56/41.30 |
newsroom | 45.07/33.39/41.28 | 45.15/33.51/41.33 | 45.98/34.20/42.18 |
multi_news | 46.74/17.95/24.26 | 47.52/18.72/24.91 | 47.65/18.75/24.95 |
gigaword | 38.75/19.96/36.14 | 39.12/19.86/36.24 | 39.65/20.47/36.76 |
wikihow | 43.07/19.70/34.79 | 41.35/18.51/33.42 | 46.39/22.12/38.41 * |
reddit_tifu | 26.54/8.94/21.64 | 26.63/9.01/21.60 | 27.99/9.81/22.94 |
big_patent | 53.63/33.16/42.25 | 53.41/32.89/42.07 | 52.29/33.08/41.66 * |
arxiv | 44.70/17.27/25.80 | 44.67/17.18/25.73 | 44.21/16.95/25.67 |
pubmed | 45.49/19.90/27.69 | 45.09/19.56/27.42 | 45.97/20.15/28.25 |
aeslc | 37.69/21.85/36.84 | 37.40/21.22/36.45 | 37.68/21.25/36.51 |
billsum | 57.20/39.56/45.80 | 57.31/40.19/45.82 | 59.67/41.58/47.59 |
更多内容,欢迎关注“机器爱学习”公众号~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。