赞
踩
最近,阅读并调试了albert的预训练代码,对于BERT为何被称为“自编码”模型有了更深的理解,在这里稍作介绍:
**注:我文中所提到的albert/BERT为预训练而准备的对数据做[MASK]的code在这里:prepare_lm_data_ngram.py
该函数涉及了多种噪声引入方式,非常形象地阐释了为什么BERT被称为"自编码"模型,以及为什么把BERT对预训练输入的处理称为"加噪声",以及为何会将"自编码"过程(即预训练的训练过程)称为"降噪"。“噪声"是BERT故意在[MASK]阶段引入的,而训练过程,就是将[MASK]还原的过程,即将引入的噪声消除,故称"降噪”。
那么BERT/ALBERT采取了哪些噪声引入方式呢?
cloze test
更难;一种防止pretrain和fine-tune的mismatch方法:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。