当前位置:   article > 正文

BERT_bert的输入

bert的输入

https://mp.weixin.qq.com/s/9eAJMbdep0s1I4upxGzw1Q

Pre-training说明BERT是一个预训练模型,通过前期的大量语料的无监督训练,为下游任务学习大量的先验的语言、句法、词义等信息。
Bidirectional说明BERT采用的是双向语言模型的方式,能够更好的融合前后文的知识。
Transformers说明BERT采用Transformers作为特征抽取器。
Deep说明模型很深,base版本有12层,large版本有24层。
总的来说,BERT是一个用Transformers作为特征抽取器的深度双向预训练语言理解模型。

BERT模型结构
在这里插入图片描述
BERT是由多层双向多层Transformer(encoder)构成的,有12层和24层之分。

BERT 输入格式有三部分

在这里插入图片描述
我们先看看,BERT网络接受的输入是什么,如上图所示,BERT接受的输入包括三个部分:

  1. 词嵌入后的Token Embedding,每次输入总以符号[CLS]的embedding开始,如果是两个句子,则句之间用[SEP]隔开。
  2. 句子类别的符号。Segment Embedding
  3. Position Embedding,这个与Transformer中的一致。
    上述三个向量相加,组成BERT的输入。

BERT处理过程会存在两个机制,一个是masked language model ,就是遮住部分训练预料的信息,BERT通过对这样的文本学习大量的相关知识。
那么,BERT是通过什么样的任务进行训练呢?其中一个是Masked Language Model。BERT会在训练时遮住训练语料中15%的词(实际的MASK机制还有一些调整),用符号[MASK]代替,通过重建这部分被遮住的内容,来让网络学习通用的词义、句法和语义信息。那么,该怎么理解Masked Language Model呢?我们不妨回想一下高中阶段都做过的英语完形填空,我们在做完形填空题目的时候,为了填上空格中的词,常常需要不断的看空格词的上下文,甚至要了解整个段落的信息。有时候,有些空甚至要通过一些英语常识才能得到答案。通过做完形填空,我们能够学习到英语中很多的词义、句法和语义信息。BERT的训练过程也类似,Masked Language Model通过预测[MASK]代替的词,不断的“对比”上下文的语义,句法和词义信息,从而学到了大量相关的知识。

BERT的预训练过程,还有一个预测下一句的任务。就是输入两个句子,判断第二个句子是不是第一个句子的下一句的任务。这个任务是为像QA和NLI这样需要考虑句子间关系的下游任务准备的。通过这个任务,BERT获得了句子级表征的能力。通常,BERT的第一个输出,即[CLS]对应的输出,就可以用来当作输入句子的句向量来使用。

BERT到底学到了什么
(1) 在BERT在预训练过程中,学习到了丰富的语言学方面的信息。
短语句法的信息在低层网络结构中学习到;BERT的中层网络就学习到了丰富的语言学特征;BERT的高层网络则学习到了丰富的语义信息特征。对应的想要某些信息或者特征,则可以使用对应层的 BERT模型。
上述观点来自如下的论文,该团队用一系列的探针实验,佐证了上述的观点,对我们进一步了解BERT和更有效的使用BERT有一定的指导意义。
Ganesh Jawahar Benoˆıt Sagot Djam´e Seddah (2019). What does BERT learn about the structure of language?.
(2) BERT其实并没有学习到深层的语义信息,只是学习到了一些浅层语义和语言概率的线索?
有一篇论文"Probing Neural Network Comprehension of Natural Language Arguments",讨论BERT在Argument Reasoning Comprehension Task(ARCT)任务中是不是其实只是学习到了数据集中一些虚假的统计线索,并没有真正理解语言中的推理和常识。

BERT是一个强大的预训练,因其超大的参数量和较强的特征提取能力,能够从海量的语料中学习到一些语言学和一定程度的语义信息。但是,笔者认为,跟此前的所有NLP模型一样,它还远没有学习到语言中蕴含的大量的常识和推理。例如,利用BERT或许能够从"天下雨了",推断出“要带伞”。但是更深层次的,“要带伞是因为怕淋湿,淋湿了会感冒”这些BERT是很难学到的。

NLP的难处就在于,语言是高度精炼和情境化的。一句简单的话,可能需要丰富的知识才能理解。现在来看,预训练模型是一条有希望但漫长的道路。

https://blog.csdn.net/Magical_Bubble/article/details/89514057
BERT解读(论文 + TensorFlow源码)

https://arxiv.org/pdf/1810.04805.pdf
文章链接

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/591567
推荐阅读
相关标签
  

闽ICP备14008679号