读论文——BERT_bert 论文

作者：AllinToyou | 2024-04-02 15:26:50

踩

bert 论文

第一遍

标题

BERT ：Pre-training of Deep Bidirectional Transformers for Language Understanding
作者

Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova

单位：Google AI Language
摘要

和其他论文的区别以及自己的结果。
1. BERT被设计用来预训练未标记文本的深度双向表示，通过联合作用于所有层的左右上下文。
2. 只需要一个额外的输出层就可以对预训练的BERT模型进行微调，从而为广泛的任务创建最先进的模型，无需对特定任务的体系结构进行实质性修改。例如：问题回答和语言推理。
3. 在11个自然语言处理任务上获得的最新的结果，包括：GLUE、MultiNLI、SQuAD v1.1、SQuAD v2.0
结论
1. 复杂的、无监督的预训练模型已经成为NLP的一个重要组成部分，它可以在低资源任务上（小数据集）进行推理和泛化。
2. 本文提出进一步提出一个深度双向的模型，允许使用相同的预训练模型处理广泛的NLP任务

第二遍

重要图表

Fig 1
- 左图表示预训练模型，右图是微调模型。
- 除了最后的输出层，它们有着相同的架构
- 同样的预训练模型的所有参数去初始化微调模型，然后用于各种下游任务
- 在微调期间，所有的参数都会被调整。（那么预训练就是选择了一个好的初始点）
- [CLS]在每个输入开头，[SEP]用来分割问题和答案
Fig 2

BERT的输入表示。
Table 1

排行榜GLUE
- 任务下面的数字表示训练示例的数量
Table 2

SQuAD v1.1结果

BERT Ensemble集成了7个模型
Table 3

SQuAD v2.0

排除了BERT左右组件的结果？
table 4

SWAG Dev 和测试准确率
table 5

Ablation
table 6
table 7

问题

第三遍

1. 介绍

目前的两类的预训练模型，一种是基于特征提取，另一种是基于微调的。
主要贡献：
1. BERT使用MLM来预训练双向表示。
2. 预训练表示，减少了许多重度工程化的特定任务架构的需求。

2. 相关工作

基于无监督特征的方法
1. 词嵌入
2. ElMo
基于无监督微调的方法
1. GPT
从有监督数据的迁移学习

3. BERT

在无监督数据上进行训练，然后针对下游任务进行微调
模型框架：
- L表示transformer块层数
- H表示隐藏层尺寸
- A表示自注意力层头数
- $BERT_{base} \\ L=12,H=768, A = 12$
- $BERT_{large} \\ L=24, H=1024, A = 16$
BERT计算量（可学习参数）：
- 嵌入层：30k * H
- 自注意力层：本来自注意力层没有可学习参数，但是其中对QKV做了投影，投影维度等于 A * 64 = H，参数量为H * H * 3(输入也是自己维度是H，3：表示KQV)，然后计算出注意力分数后，计算输出投影（H * H）。因此可学习参数的总量为H * H * 4
- feed forward position-wise层：H * 4H （隐藏层维度） * 2(两个全连接层)
输入输出表示：
- 采用WordPiece嵌入方法
- 输入表示等于位置编码+分段编码+词元编码
预训练BERT
- 任务一：MLM (Masked language model)——用来句内双向编码
  1. 随机屏蔽每个序列中15% 的WordPiece词元
  2. 由于微调过程中，没有用到[MASK]，因此在预训练过程中，掩盖的概率发生调整。
    1. 选择15%tokens进行掩盖
    2. 对每个掩盖的词有三种掩盖方式：
      
      概率方法
      80% [MASK]
      10% 一个是随机的token
      10% 不改变原token
- 任务二：NSP (next sentence prediction）——用来理解句子间关系
  1. 单语料库中简单生成的二进制下一句预测
  2. 训练时，下一句有50%（IsNext），50%(NotNext)
- 预训练数据
  1. BooksCorpus（800M words）和 English Wikipedia (2,500M words)
微调BERT
- 输入模式：
  1. 意译中的句子对（sentence pairs in paraphras-ing）
  2. 蕴涵中的假设-前提对
  3. 问题-回答对
  4. 在文本分类和序列标注中的text- $\emptyset$
- 输出模式：
  1. token表示token-level任务，例如：序列标注、问题回答
  2. [CLS]用来表示分类任务，例如：蕴含关系和情感分析

概率	方法
80%	[MASK]
10%	一个是随机的token
10%	不改变原token

4. 实验

GLUE

任务	具体描述
MNLI（Multi-Genre Natural Language Inference）	大的、众包的蕴含分类任务，给一个句子对，预测第二个句子相较于第一个句子是，entailment contradiction or neutral（蕴含、矛盾、中立）
QQP（Quora Question Pairs）	在Quora上的两个问题，在语义上是否等价
QNLI（Question Natural language Inference)	取自于斯坦福问答数据集，包含问题-答案和问题-文段中的其他句子，组成一个二分类任务
SST-2（The Stanford Sentiment Treebank ）	取自于电影评论和人类标注的情感数据集，单句子的情感份分类
CoLA（The Corpus of Linguistic Acceptability）	单句子是否符合语言学
STS-B（The Semantic Textual Similarity Benchmark）	从新闻标题和其他资源中抽取的句子对，文本语义相似性基准，两个句子在语义上有多相似（1-5表示，越大越相似）
MRPC（Microsoft Research Paraphrase Corpus）	摘自网上新闻，两个句子在语义上是否等价
RTE（Recognizing Textual Entailment）	识别文本蕴含关系
WNLI（Winograd NLI）	小型自然语言推理数据集

SQuAD v1.1
- 在微调过程中，只引入一个初始向量S和一个结束向量E。
- 计算开始(S)和结束词(E)的概率公式：
  
  $P_i = \frac{e^{S \cdot {T_i}}}{\sum_je^{S \cdot T_j}}$
- 候选目标的分数从位置i到位置j被定义为 $S\cdot T_i + S \cdot T_j$ ,当j>=i，最大化这个分数，作为预测结果
SQuAD v2.0
- 允许在所提供的段落中不存在简短答案的可能性，使问题更加现实
- 公式：
  
  $s_{null} = S \cdot C + E \cdot C$
  
  $\hat{s_{i,j} } = max_{j \geq i} S \cdot T_i + E \cdot T_j$
  
  $\hat{s_{i,j} } > s_{null} + \tau$
SWAG

5. Ablation 研究

Ablation studies 为了研究模型中所提出的一些结构是否有效而设计的实验

预训练任务的作用
模型规模的作用
基于特征的BERT

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/352806