当前位置:   article > 正文

ACL 2022 | 给注意力升升温,模型摘要的有效蒸馏

attention temperature matters in abstractive summarization distillation

e3b79b19c5cf8a8023d7ae66e46835a1.gif

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

54a1b76ed93220f6ce63d77e81aa2ffc.png

OverView

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型,为了减少其计算开销,一般使用蒸馏中的伪标记方法。本文中,作者讨论了伪标记方法在获取生成式摘要上存在的问题,并展示了仅仅通过调整注意力温度(Attention temperature)即可提升学生模型生成摘要的能力。

cb529694ccae873c1725dca3e757c677.png

论文标题:

Attention Temperature Matters in Abstractive Summarization Distillation

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2106.03441

9d71ee4dac44243b1464cf1d9e9392e8.png

Method

自动文本摘要是将长文档改写为较短的形式,同时仍然保留其最重要的内容,一般分为抽取式摘要和生成式摘要,前者直接从文本中抽取主题句形成摘要,而后者生成新的句子来概括文本。由于生成式摘要一般比抽取式摘要效果更好,所以本文主要研究生成式摘要的问题。

生成式摘要问题可以视为一个序列到序列(Seq2Seq)问题,一般依赖于大规模预训练模型。但是由于其推理速度较慢,很难实际部署,所以一般采用知识蒸馏方法将大模型的知识传递给小模型,从而在保持表现相当的情况下提升速度。在 Seq2Seq 模型的蒸馏中,一般采取 pseudo-labling(伪标记 [1])方法:也即先向教师模型输入所有训练集样本,并让教师模型生成 pseudo-summary(伪摘要),并将其与训练集中原有的 summary 一起用于训练学生模型。

在原有训练模型生成文本摘要时,其目标函数为最大化 log-likelihood:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/255777
推荐阅读
相关标签
  

闽ICP备14008679号