Bert论文解读及相关代码实践_bert 对比学习实战代码

作者：AllinToyou | 2024-04-13 18:15:42

踩

bert 对比学习实战代码

Bert：Bidirectional Encoder Representations from Transformers

Transformer中双向Encoder表达学习。BERT被设计为通过在所有层中对左右上下文进行联合调节，从未标记文本中预训练深度双向表示。预训练的BERT模型可以通过仅一个额外的输出层进行微调，从而为广泛的任务创建最先进的模型。Bert paper

借鉴CV中的大规模预训练然后进行迁移学习就能得良好的效果，因此BERT也是两部分，预训练，然后微调。在预训练中，模型在不同任务无标签的数据上进行。微调则是以预训练的参数进行初始化，然后再用下游任务有标签的数据进行训练。每个下游任务都有各自微调的模型，尽管他们初始化时用的同样预训练参数。如下则是示例：

可见除了输出层，预训练模型和微调模型使用的结构都是一样的，CLS是每个句子

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/417826

Bert论文解读及相关代码实践_bert 对比学习 实战代码

Bert论文解读及相关代码实践_bert 对比学习实战代码