当前位置:   article > 正文

NLP-预训练模型-2019-NLU+NLG:BART【Bert+GPT的泛化Seq2Seq模型】【噪声破坏后的原文本喂给编码器,解码器输出原文本】【噪音方案:文本填充(文本片段用单个掩码替换)】_bart预训练模型

bart预训练模型

《原始论文:BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension》

一切都得从Transformer说起。Transformer左半边为Encoder,右半边为Decoder。我们将Encoder输入的句子称为source,Decoder输入的句子称为target
在这里插入图片描述
Encoder负责将source进行self-attention并获得句子中每个词的representation,最经典的Encoder架构就是BERT,通过Masked Language Model来学习词之间的关系,另外还有XLNet, RoBERTa, ALBERT, DistilBERT等等。
在这里插入图片描述

单独Encoder结构不适用于生成任务。

Decoder如下图所示,输入与输出之间差一个位置,主要是模拟在Inference时,不能让模型看到未来的词,这种方式称为AutoRegressive,常见的基于Decoder的模型通常是用来做序列生成的,例如GPT, CTRL等等。但是单独Decoder结构仅基于左侧上下文预测单词,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/729456
推荐阅读
相关标签
  

闽ICP备14008679号