当前位置:   article > 正文

bert的数据处理_bert数据流动

bert数据流动

一、将数据下载下来
在这里插入图片描述
二、构造相邻句子token_a和token_b
百分之五十是下一个句子。
百分之五十是随机拼接的来自文章的句子。
这里已经知道正确答案is_next为true或false
在这里插入图片描述
利用上面的函数构建循环在文章中构建token_a和token_b,这时候我们已经知道他们是不是相邻的,我之后可以用bert做预测实现监督学习
在这里插入图片描述
进一步对token_a和token_b进行掩码处理,在这里插入图片描述
三、继续构造输入:进行掩码
(1)就是不断的地进行构造,直到长度大于等于原句子,这也就代表全部转化完成。
(2)百分之八十转化为掩码,百分之十保持不变,百分之十随机替换

在这里插入图片描述
下面就是对全文进行mask掩码,调用上面的函数。首先去掉标签取出全部文本。输入到上面函数中去,对文本进行mask
在这里插入图片描述
四、对输入句子进行pad
就是把有些短句子加入当然segment也要加[0]以及随之而来的一些修改:pred_positions把输入的模型长度增加、修改mlm信息(未详细看)
在这里插入图片描述


在这里插入图片描述
五、使用以上函数构造dataset
在这里插入图片描述

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/376659
推荐阅读
相关标签
  

闽ICP备14008679号