当前位置:   article > 正文

Google天马(PEGASUS)模型_pegagus微调效果很差

pegagus微调效果很差

前言:谷歌研究人员提出了PEGASUS模型,用于提取文章摘要。今天就对PEGASUS模型做简单介绍。
论文
源码

预训练目标

研究人员假设,预训练目标越接近下游任务,那么就能更快更好的微调效果。为此,他们设定下游语言任务为“提取文本摘要”,而预训练目标为“生成间隙句子”(Gap Sentences Generation)。

Gap Sentences Generation(GSG)

研究人员提出了一个自监督的预训练来生成文本摘要, 重点在于预训练的时候的目标是把生成间隙句子(GSG), 所以在提取文本摘要的时候,简单的finetuning有很大的提升。
随机mask掉一部分句子,然后将Gap sentence直接拼接,作为一个“伪摘要”。 mask调的句子则被[Mask]替换掉,为了更接近我们的下游任务,我们选择在文章中比较重要的句子。
GSR(gap sentence ratio)是GSG(Gap Sentences Generation)的超参, 指的是文档中选择间隔句子的个数除以句子总数,相当于其他研究中的mask比例。

句子选取

论文中采用3种策略来选取gap sentence

  1. Randam,均匀的随机选出m个句子
  2. Lead,选取前m个句子
  3. Principal,根据重要性选择top-m最重要的句子。使用句子A和除该句子A外的剩余文档的RANGE-F1来作为重要性的计算指标。公式如下,
    在这里插入图片描述

在这个公式中,每个句子是被独立计算的并从中选取top-m,即Ind
研究者还认为,可以通过基于贪心思想最大化已选取句子集合和剩余文档之间的ROUGE1-F1,从而有序地将top-m选出,即Seq,具体算法如下,其中S为已选出句子的集合,D为文档所有句子集合。
在这里插入图片描述
当计算ROUGE1-F1时,又可将n-grams作为一个集合,即Uniq;或者重复计算同一n-gram作为原始组合,即Orig。这就使得Principal选择策略有4中组合,可选参数为Ind/SeqOrig/Uniq
下图是文档样例,该样例源于C4语料库。其中分别用不同颜色表示,提取的gap sentence结果
在这里插入图片描述

Masked Language Model (MLM)

采用BERT的配置,研究人员人采用mask15%的输入文本,其中80%被替换成[MASK],10%保持不变,10%替换为其他token。将MLM作为Transformer encoder预训练的单一目标函数或者和GSG一同作为目标函数,当为单一目标函数时,微调下有任务时,Transformer的decoder和encoder共享所有参数。
下图展示了GSG和MLM如何同时应用到同一个样例。然而,研究人员发现MLM在大规模的预训练步骤并不能提升下游任务,且在PEGASUS_LARGE的最终模型中没有选择MLM。
在这里插入图片描述
PEGASUS的基础架构就是标准的Transformer的encoder-decoder,GSG和MLM被同时作为预训练目标用于该例子。原始有三个句子。一个句子用[MASK1]遮挡,且作为文本生成目标(GSG)。其余两个句子保持和输入一致,且被[MASK2]随机遮挡(MLM)。

实验

预训练语料库选用

  • C4(Colossal and Cleaned version of Common Crawl) 包含350M网页文本
  • HugeNews 包含1.5B文章

下游任务及语料库

  • XSum
  • CNN/DailyMail
  • NEWSROOM
  • Multi-News
  • Gigaword
  • arXiv, PubMed
  • BIGPATENT
  • WikiHow
  • Reddit
  • TIFU
  • AESLC
  • BillSum

实验采用和bert一样的两种配置,一个是base版的 一个是large版的。具体参数如下PEGASUS_BASE L = 12, H = 768, F = 3072, A = 12; PEGASUS_LARGE had L = 16, H = 1024, F =4096, A = 16, 其中, L 为encoder和decoder的层数(比如Transformer的block),H为隐藏层大小, F为前馈层大小,A为自注意力头的个数. bert的实验两种版本参数为(BERT_BASE L=12, H=768, A=12 ;BERT_LARGE L=24, H=1024, A=16)

研究人员在C4和HugeNews上训练一个使用抽样GSR的pegasus模型,并随机抽取重要句子。此表中报告了更新后的结果。

语料库/下游任务C4HugeNewsMixed & Stochastic
xsum45.20/22.06/36.9947.21/24.56/39.2547.60/24.83/39.64
cnn_dailymail43.90/21.20/40.7644.17/21.47/41.1144.16/21.56/41.30
newsroom45.07/33.39/41.2845.15/33.51/41.3345.98/34.20/42.18
multi_news46.74/17.95/24.2647.52/18.72/24.9147.65/18.75/24.95
gigaword38.75/19.96/36.1439.12/19.86/36.2439.65/20.47/36.76
wikihow43.07/19.70/34.7941.35/18.51/33.4246.39/22.12/38.41 *
reddit_tifu26.54/8.94/21.6426.63/9.01/21.6027.99/9.81/22.94
big_patent53.63/33.16/42.2553.41/32.89/42.0752.29/33.08/41.66 *
arxiv44.70/17.27/25.8044.67/17.18/25.7344.21/16.95/25.67
pubmed45.49/19.90/27.6945.09/19.56/27.4245.97/20.15/28.25
aeslc37.69/21.85/36.8437.40/21.22/36.4537.68/21.25/36.51
billsum57.20/39.56/45.8057.31/40.19/45.8259.67/41.58/47.59

更多内容,欢迎关注“机器爱学习”公众号~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/358985
推荐阅读
相关标签
  

闽ICP备14008679号