赞
踩
在网络架构上,Bert使用的是Transformer的Encoder结构,因此可以输入序列中的每一个token都可以获取整个序列全文的上下文信息(Bidirectional)。而GPT使用的是Transformer的Decoder结构,通过Masked-Attention Layer,序列中的每一个token只能够看到其前方和自身的上下文信息(Left-to-right)。
对于Bert使用的是完形填空和下一句判断来进行无监督的模型预训练,具体而言:
对于GPT使用的是下一个词预测进行无监督的模型预训练:
由于Bert在预训练时使用了下一句预测任务作为目标函数,在进行Fine-tuning时输入能够自适应处理非连续的文本任务(例如QA),在进行微调时只需要重新训练分类头即可。在进行预训练和微调时,除了对应每个输入的预测结果外(token level prediction),还额外包含一个CLS头用来支持分类任务。
GPT由于在进行预训练时使用的是连续的文本进行下一个词的预测,因此对于非连续的序列信息无法直接进行处理(Entaiment、Similarity、Multiple Choice)。因此,在进行微调时需要对输入信息进行构造,同时添加针对每个任务的线性预测头,针对不同任务具体的构造方式如下图所示。在进行微调时,对应需要额外学习的参数有Delim分句符号的学习以及线性预测头的学习。
[1] Bert: https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ
[2] GPT-1: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。