赞
踩
snownlp包,是中文自然语言处理的一个Python包,可以用来处理分词、情感分析等。
安装该包之后,在各个功能目录下默认会有一个训练好的模型,当我们调用诸如情感分析的功能时,会使用该模型进行情感预测。然而,如果我们有自己的语料库可以用来训练,则可以大大提高预测的准确率。
我们现在从该包的文件存储入手,来看一看它是如何存储并应用模型的。
本人是在Anaconda上安装的,路径如上图所示。该包下包含了多个文件夹,其中seg、sentiment、tag分别代表:分词、情感分析、词性标注。这三个功能是可以通过训练自己提供的语料来制定与自己行业更为贴近的模型的。
下面以情感分析模块为例,来详细探究其如何训练与保存模型的。
打开sentiment文件夹,可以看到里面有两个txt文件:neg.txt、pos.txt,这两个文件分别为消极情绪语料、积极情绪语料。
还有一个sentiment.marshal和一个sentiment.marshal.3文件,该文件均为通过默认语料训练得到的模型,其区别在于前者是Python3版本之前的序列化文件,后者是Python3版本的序列化文件。关于这一点,我们可以从源码中找到答案:可以看到,如果当前的python版本为3,则在文件名后面添加后缀“.3”。
- class Bayes(object):
-
- ...
-
- def save(self, fname, iszip=True):
- d = {}
- d['total'] = self.total
- d['d'] = {}
- for k, v in self.d.items():
- d['d'][k] = v.__dict__
- if sys.version_info[0] == 3:
- fname = fname + '.3'
- if not iszip:
- marshal.dump(d, open(fname, 'wb'))
- else:
- f = gzip.open(fname, 'wb')
- f.write(marshal.dumps(d))
- f.close()
- ...
我们现在已经知道了模型是从何处调用训练数据,以及将序列化的模型保存在何处了,接下来看看如何调用相关方法来训练我们自己的语料并保存训练好的模型。
sentiment提供了训练和保存的方法(此处需要注意,你的语料文件需要设置为编码为‘utf-8’,否则训练会报错):
- from snownlp import sentiment
- sentiment.train('neg.txt','pos.txt')
通过指定你自己的样本数据,来训练模型,这个过程及其漫长(取决于你的语料库大小)。
训练好之后,即可利用save方法将模型保存起来:
sentiment.save('sentiment.marshal')
保存过程将第2部分的源码,会根据当前的Python版本保存不同的后缀。
我们可以通过修改sentiment目录下__init__.py文件中的data_path,来指定我们自己的模型路径,这样在以后导入snownpl.sentiment时,即可直接使用预测功能,来判断目标的情感值了。
使用方法:
- import snownlp as sn
-
- def sentiment(text):
- s = sn.SnowNLP(text)
- return s.sentiments
-
- text = '测试语句'
-
- print(sentiment(text))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。