NLP-预训练模型-2019-NLU+NLG：BART【Bert+GPT的泛化Seq2Seq模型】【噪声破坏后的原文本喂给编码器，解码器输出原文本】【噪音方案：文本填充（文本片段用单个掩码替换）】_bart预训练模型

作者：Monodyee | 2024-06-17 03:28:15

踩

bart预训练模型

《原始论文：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

一切都得从Transformer说起。Transformer左半边为Encoder，右半边为Decoder。我们将Encoder输入的句子称为source，Decoder输入的句子称为target
在这里插入图片描述
Encoder负责将source进行self-attention并获得句子中每个词的representation，最经典的Encoder架构就是BERT，通过Masked Language Model来学习词之间的关系，另外还有XLNet, RoBERTa, ALBERT, DistilBERT等等。

单独Encoder结构不适用于生成任务。

Decoder如下图所示，输入与输出之间差一个位置，主要是模拟在Inference时，不能让模型看到未来的词，这种方式称为AutoRegressive，常见的基于Decoder的模型通常是用来做序列生成的，例如GPT, CTRL等等。但是单独Decoder结构仅基于左侧上下文预测单词，

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/729456