赞
踩
自监督学习的典型模型,除了BERT,还有GPT。 GPT的任务本质是预测得到一个seq的一部分,预测下一个字(predict next token)。相当于Transformer的decoder
注:GPT的模型非常大,微调参数都能耗费很大的计算量。