赞
踩
本文将以本科学生的视角详解介绍自编码器模型
1.以BERT模型作为介绍对象
2. 贴近实战,能做项目
3. 阅读本节内容通用于自编码器类模型
Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是18年NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。
关于BERT的具体细节和原理,建议去看原论文。首先要去阅读Transformer原论文,再去阅读BERT的原论文。如果阅读起来比较吃力,可以观看李沐的论文精度视频进行学习。
论文链接:
直观的理解
BERT通常作为一个编码器,对文本进行编码以形成词向量,进行迁移学习。
在BERT之后接一个自己定义的神经网络层和损失函数进行训练,通过反向传播不仅自己定义的神经网络层参数在更新,BERT模型的参数也再更新,由于BERT的文本特征提取能力已经十分强大,所以只需要少量的数据就能够达到十分不错的效果。
直接使用BERT模型的输出作为新任务的的文本编码,将该文本编码作为你的新模型的输入,模型训练的过程中对BERT模型不具有反向传播,BERT模型的参数不能更新。
一开始,词向量是神经网络的权重。word2vec通过CBOW和SG模型(根据两个词预测一个词)式训练,其输入是one-hot向量,神经网络的参数通常是[sizeof(one-hot),自定义维度],而one-hot通常只有一个标记显示为1,因此one-hot*神经网络参数会得到一个[自定义维度]的向量,这就是词向量;由于朝着训练目标前进,这个向量通常已经具备上下文特征;
但是BERT模型出现后,词向量已经不再是严格意义上的神经网络hidden state参数,词向量还是那个词向量,但是BERT在拿到词向量后还要利用注意力机制对词向量进行适应任务调整。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。