BART: Bidirectional and Auto-Regressive Transformers_bart和bert

作者：小蓝xlanll | 2024-06-17 03:21:07

踩

bart和bert

1 简介

BART: Bidirectional and Auto-Regressive Transformers.

本文根据2019年《BART: Denoising Sequence-to-Sequence Pre-training for Natural
Language Generation, Translation, and Comprehension》翻译总结。

BERT是双向encoder，GPT是left-to-right decoder。BART可以说是既有encoder，又有decoder，即BERT和GPT结合体。如下图：
在这里插入图片描述

BART输入的损坏文本可以使用任意噪声函数，然后模型来学习回复原始文本。所以BART是一个去噪autoencoder。
BART是一个sequence-to-sequence model，包括双向encoder（接受损坏的文本）和left-to-right 自回归（autoregressive）decoder。

BART和BERT的差异是：（1）decoder的每一层会额外的对encoder的最后隐藏层进行cross-attention；（2）BERT在word预测前使用了feed-forward network，而BART没有使用。总体来说，BART比BERT多10%左右的参数。

BART在Discriminative Tasks上，达到了RoBERTa类似的表现；在text generation tasks.取得了new state-of-the-art结果。

2 预训练BART

各种不同的输入情况：
Text Infilling：文本片段的一部分是被一个单独的[mask]替换，片段的长度从0到3等。
Sentence Permutation：根据句号分割句子，重新排列组合。
Document Rotation：随机找到一个token作为开始位置。
在这里插入图片描述

3 Fine-tuning BART

下面是分类和翻译的模型示例。翻译任务增加了一个随机初始化的encoder。

在这里插入图片描述

4 实验结果

可以看到test infilling的效果不错。其中Language Model（类似GPT），Permuted Language Model（基于XLNet）

在这里插入图片描述

4.1 Discriminative Tasks

BART可以达到RoBERTa的效果。
在这里插入图片描述

4.2 Generation Tasks
BART表现很好。
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/729436