Roberta: Bert调优_bert和robert参数是一样的吗

作者：2023面试高手 | 2024-04-01 15:42:52

踩

bert和robert参数是一样的吗

最近要开始使用Transformer去做一些事情了，特地把与此相关的知识点记录下来，构建相关的、完整的知识结构体系。

以下是要写的文章，文章大部分都发布在公众号【雨石记】上，欢迎关注公众号获取最新文章。

Overall

Bert出来以后，迅速引爆了NLP领域，出现了很多的针对模型的改进。然而，Roberta用实力表明，只对原来的Bert模型调优就可以有明显的提升。

Roberta，是Robustly Optimized BERT Approach的简称。

Robustly用词很赞，既有“鲁棒的”，又有”体力的”。Roberta是一片实验为基础的论文，有点体力活的意思，但是结果又非常的鲁棒可信赖。

先来回顾一下Bert中的一些细节：

在输入上，Bert的输入是两个segment，其中每个segment可以包含多个句子，两个segment用[SEP]拼接起来。
模型结构上，使用Transformer，这点跟Roberta是一致的。
学习目标上，使用两个目标：
- Masked Language Model(MLM): 其中15%的token要被Mask，在这15%里，有80%被替换成[Mask]标记，有10%被随机替换成其他token，有10%保持不变。
- Next Sentence Prediction: 判断segment对中第二个是不是第一个的后续。随机采样出50%是和50%不是。
Optimizations:
- Adam, beta1=0.9, beta2=0.999, epsilon=1e-6, L2 weight decay=0.01
- learning rate, 前10000步会增长到1e-4, 之后再线性下降。
- dropout=0.1
- GELU激活函数
- 训练步数：1M
- mini-batch: 256
- 输入长度: 512
Data
- BookCorpus + English Wiki = 16GB

Roberta在如下几个方面对Bert进行了调优：

原来的Bert中是在训练数据中静态的标上Mask标记，然后在训练中是不变的，这种方式就是静态的。

Roberta尝试了一种动态的方式，说是动态，其实也是用静态的方式实现的，把数据复制10份，每一份中采用不同的Mask。这样就有了10种不同的Mask数据。

从结果中，可以看到动态mask能带来微小的提升。

Bert的模型输入中是由两个segment组成的，因而就有两个问题：

因此设置了四个实验：

Segment-Pair + NSP
Sentence-Pair + NSP: 只用了sentence以后，输入的长度会变少，为了使得每一步训练见到的token数类似，在这里会增大batch size
Full-Sentence: 每一个样本都是从一个文档中连续sample出来的，如果跨过文档边界，就添加一个[SEP]的标记，没有NSP损失。
Doc-Sentence: 类似于Full-Sentence，但是不会跨过文档边界。

从实验结果中可以看到，改用Sentence-Pair会带来一个较大的损失。猜测是因为这样无法捕捉long-term的依赖。

另外，Full-Sentence和Doc-Sentence能够带来微小的提升，说明NSP不是必须的。