赞
踩
各位小伙伴,google在2018年提出的NLP最强兵器Bert,目前也有提供可直接使用的预训练Model,下方链结就是我使用的Bert模型,详细的内容可以参考下面的链结
pytorch-pretrained-bertpypi.org下面我开始测试这个bert模型有多好用吧!!
我准备的数据是新闻的标题、新闻的内容、以及新闻标题与内容的相关性(最不相关为0~最相关3)
首先先将新闻的数据整理,因为文本太长超过Bert的512个字符的长度,需要截取部份
df_train
将资料整理成三部份
from
将资料整理成mini-batch,并且整理每个batch的数据
- """
因为我的文本有4种种类(0~3),所以设定为4种分类
# 載入一個可以做中文多分類任務的模型,n_class = 4
因为我有两张显卡(骄傲抬头),所以我把这个模型训练放在cuda:1中,若小伙伴只有一张显卡,要调整成cuda:0才能进行训练
- """
可以看一下最初使用Bert预测的结果,.......恩@@, 还没训练前的效很差,准确率只有28.88%
因为我们还没有针对这个文本进行二次训练,让Bert了解我想要的文本分类需求,下面就进行模型的再次训练吧
设定Adam的模型分类参数
def
设定模型训练20次
import
下面开始训练的20次的情况,准确率有明显的提升83.36% (撒花!!)
# 绘制训练的准确率图形
可以看出Bert做文本分类效果有显著的提升, Bert其实还可以做情感分析,只需要将分类的类别调整成2种即可,有兴趣的小伙伴可以自己测试看!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。