赞
踩
标题
BERT :Pre-training of Deep Bidirectional Transformers for Language Understanding
作者
Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova
单位:Google AI Language
摘要
和其他论文的区别以及自己的结果。
结论
Fig 1
Fig 2
BERT的输入表示。
Table 1
排行榜GLUE
Table 2
SQuAD v1.1结果
BERT Ensemble集成了7个模型
Table 3
SQuAD v2.0
排除了BERT左右组件的结果?
table 4
SWAG Dev 和 测试准确率
table 5
Ablation
table 6
table 7
在无监督数据上进行训练,然后针对下游任务进行微调
模型框架:
BERT计算量(可学习参数):
输入输出表示:
预训练BERT
任务一:MLM (Masked language model)——用来句内双向编码
随机屏蔽每个序列中15% 的WordPiece词元
由于微调过程中,没有用到[MASK],因此在预训练过程中,掩盖的概率发生调整。
选择15%tokens进行掩盖
对每个掩盖的词有三种掩盖方式:
概率 | 方法 |
---|---|
80% | [MASK] |
10% | 一个是随机的token |
10% | 不改变原token |
任务二:NSP (next sentence prediction)——用来理解句子间关系
预训练数据
微调BERT
GLUE
任务 | 具体描述 |
---|---|
MNLI(Multi-Genre Natural Language Inference) | 大的、众包的蕴含分类任务,给一个句子对,预测第二个句子相较于第一个句子是,entailment contradiction or neutral(蕴含、矛盾、中立) |
QQP(Quora Question Pairs) | 在Quora上的两个问题,在语义上是否等价 |
QNLI(Question Natural language Inference) | 取自于斯坦福问答数据集,包含问题-答案和问题-文段中的其他句子,组成一个二分类任务 |
SST-2(The Stanford Sentiment Treebank ) | 取自于电影评论和人类标注的情感数据集,单句子的情感份分类 |
CoLA(The Corpus of Linguistic Acceptability) | 单句子是否符合语言学 |
STS-B(The Semantic Textual Similarity Benchmark) | 从新闻标题和其他资源中抽取的句子对,文本语义相似性基准,两个句子在语义上有多相似(1-5表示,越大越相似) |
MRPC(Microsoft Research Paraphrase Corpus) | 摘自网上新闻,两个句子在语义上是否等价 |
RTE(Recognizing Textual Entailment) | 识别文本蕴含关系 |
WNLI(Winograd NLI) | 小型自然语言推理数据集 |
SQuAD v1.1
在微调过程中,只引入一个初始向量S和一个结束向量E。
计算开始(S)和结束词(E)的概率公式:
P i = e S ⋅ T i ∑ j e S ⋅ T j P_i = \frac{e^{S \cdot {T_i}}}{\sum_je^{S \cdot T_j}} Pi=∑jeS⋅TjeS⋅Ti
候选目标的分数从位置i到位置j被定义为 S ⋅ T i + S ⋅ T j S\cdot T_i + S \cdot T_j S⋅Ti+S⋅Tj,当j>=i,最大化这个分数,作为预测结果
SQuAD v2.0
允许在所提供的段落中不存在简短答案的可能性,使问题更加现实
公式:
s n u l l = S ⋅ C + E ⋅ C s_{null} = S \cdot C + E \cdot C snull=S⋅C+E⋅C
s i , j ^ = m a x j ≥ i S ⋅ T i + E ⋅ T j \hat{s_{i,j} } = max_{j \geq i} S \cdot T_i + E \cdot T_j si,j^=maxj≥iS⋅Ti+E⋅Tj
s i , j ^ > s n u l l + τ \hat{s_{i,j} } > s_{null} + \tau si,j^>snull+τ
SWAG
预训练任务的作用
模型规模的作用
基于特征的BERT
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。