赞
踩
其他各种Auxiliary Objective:
[MASK]
填充应用这些策略的方式:attention masking
简称L2R LMs(AR LM变体)
预测下一个单词,或计算当前一系列单词出现的概率:
right-to-left LM类似:
简称MLM
用全连接mask编码输入,以AR方式解码输出。
我又写了一个新的博文。具体对这两个博文的合并和解耦工作以后再做吧,现在先凑合看好了:各种预训练模型的理论和调用方式大全
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。