赞
踩
NLP发展已经很长一段时间了,相比CV,NLP入门要难一些,我相信很多人都像我当初一样,看了很多的算法,公式,模型,一头雾水,看懂了又好似没看懂,模型原理背的滚瓜烂熟,但是做不出来东西,看了别人的源码感觉好像就那么回事,但是复现不出来。
因此,我决定从一个具体的实验角度一步一步的循序渐进,像是写日记一样记录一下我的第一个NLP实验。
实验目的:
任务是NLP中最基本的文本分类任务,这个任务比较成熟,坑也比较少,比较容易实现。目标呢,是做一系列对比实验,探究不同因素之间的影响。
第一组:CNN, LSTM,GRU之间的对比。
第二组:MaxPooling,MeanPooling,Attention之间的对比。
第三组:dropout概率0.5,0.25,0之间的对比。
第四组:是否使用GloVe预训练词向量之间的对比。
你可能一下子就能说出对比的结果,肯定是GRU+Attention,dropout在0.5,并且用GloVe词向量的效果最好,但是这个实验的目的不在于结果,重点是NLP中的各种思想,一个入门级的实验,目的是为了加深NLP的理解。
首先做文本分类的数据集使用Yelp2013的数据集,根据评分做5分类任务。
baseline选2016年《Neural Sentiment Classification with User and Product Attention》里边的结果图:
框架使用pytorch框架
需要用到的模块有:torch,torchtext,time,numpy,matplotlib,collections
大家可以预先准备好。
按照我的习惯,我喜欢把一个NLP任务分成4个文件,分别是
test.py,data.py,model.py,train.py
很多初学者可能不习惯这种分法,但是我认为,良好的代码结构和编程习惯很多时候决定了一个代码的上限,层次分明的结构在后续修改,和复用的过程,能提供很大的帮助。
在我的结构里:
test.py可以当做是任务的main函数,代码的运行就是在test.py中运行的,用于控制整个流程。
data.py用于存放文本预处理工作的内容,在NLP中,预处理工作占了相当大的一部分,有时候预处理的好坏甚至能直接影响结果,这点和CV有所不同。
model.py顾名思义,是用来存放模型的,这次实验的模型简单,只需要存放GRU,Attention,CNN即可完成全部工作。
train.py是用于存放训练过程的,其实不仅仅是训练过程,还包括预测,结果计算,batch等一系列操作。
当然,如果你认为有更好的结构可以使用你自己喜欢的,如果没有可以参考我这个结构,如果有做过开发的朋友应该对这些比较了解,这个结构的作用其实和软件开发时框架的作用类似。
——————还有后续,待更新,更新后会发在同名专栏里边————————
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。