赞
踩
Bert:Bidirectional Encoder Representations from Transformers
Transformer中双向Encoder表达学习。BERT被设计为通过在所有层中对左右上下文进行联合调节,从未标记文本中预训练深度双向表示。预训练的BERT模型可以通过仅一个额外的输出层进行微调,从而为广泛的任务创建最先进的模型。Bert paper
借鉴CV中的大规模预训练然后进行迁移学习就能得良好的效果,因此BERT也是两部分,预训练,然后微调。在预训练中,模型在不同任务无标签的数据上进行。微调则是以预训练的参数进行初始化,然后再用下游任务有标签的数据进行训练。每个下游任务都有各自微调的模型,尽管他们初始化时用的同样预训练参数。如下则是示例:
可见除了输出层,预训练模型和微调模型使用的结构都是一样的,CLS是每个句子
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。