当前位置:   article > 正文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understading

bert: pre-training of deep bidirectional transformers for language understan

Abstract

BERT: Bidrectional Encoder Representations from Transformers.
BERT与之前的语言表示模型不同,它通过在所有层同时依赖左边和右边的上下文来预训练一个深度双向语言表示。

通过这种方式预训练的表示只需要一个额外的输出层来fine-tune一下就可以在众多任务上实现SOTA。

BERT一共在7个自然语言处理任务上获得SOTA结果,并且将GLUE benchmark提高到80.4(绝对值提高7.6%),MultiNLI accuracy提高到86.7%(绝对值提高5.6%),SQuAD v1.1测试集F1提高到93.2(绝对值提高1.5),比真人得分还高2.0.

Introduction

将预训练语言表示应用到下游任务有两种策略:

  • feature based
  • fine-tuning

Feature based方法(例如ELMo)使用任务特定的架构,将预训练表示作为补充特征。Fine-tuning方法(例如GPT)引入最少量的下游任务特定参数,然后在下游任务上fine-tune预训练参数。他们在预训练时使用相同的目标函数,因为他们都使用单

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/377717
推荐阅读
相关标签
  

闽ICP备14008679号