赞
踩
一、将数据下载下来
二、构造相邻句子token_a和token_b
百分之五十是下一个句子。
百分之五十是随机拼接的来自文章的句子。
这里已经知道正确答案is_next为true或false
利用上面的函数构建循环在文章中构建token_a和token_b,这时候我们已经知道他们是不是相邻的,我之后可以用bert做预测实现监督学习
进一步对token_a和token_b进行掩码处理,
三、继续构造输入:进行掩码
(1)就是不断的地进行构造,直到长度大于等于原句子,这也就代表全部转化完成。
(2)百分之八十转化为掩码,百分之十保持不变,百分之十随机替换
下面就是对全文进行mask掩码,调用上面的函数。首先去掉标签取出全部文本。输入到上面函数中去,对文本进行mask
四、对输入句子进行pad
就是把有些短句子加入当然segment也要加[0]以及随之而来的一些修改:pred_positions把输入的模型长度增加、修改mlm信息(未详细看)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。