论文阅读——BART

作者：羊村懒王 | 2024-06-17 03:29:40

踩

论文阅读——BART

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段：任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input：被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型，encoder 6层，decoder 12层

其他细节：激活函数把ReLU换成GeLUs

1、预训练：

允许输入任意类型噪声破坏的文本，极端情况下，如果任意信息都丢失，BART等同于语言模型。

Token Masking：和BERT一样

Token Deletion：随机抽取到的token删除（Token Masking是抽取到的token用mask代替，这个是随机抽取到的token删除），模型可以学习到什么位置的token丢失了

Text Infilling：对多个文本跨度进行采样，跨度长度取自泊松分布，可以教模型预测一个跨度中缺少多少tokens

Sentence Permutation：文章句子打乱顺序

Document Rotation：文章中随机找到一个token，将文章翻转，以该token作为文章的开头

2、微调：

各下游任务微调

二、Loss：交叉熵

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/729462