赞
踩
1.相关第三包的准备
2.获取语料库及停用词信息
3.分词
4.词频统计
5.去停用词
6.基于TF-IDF理论、词袋模型等的文本向量化处理
7.机器学习、情感分析
8.简单可视化
关于NLP部分的包主要是分词部分的包和可视化部分的包,机器学习部分我主要就用sk-learn了。
分词部分:
将语料库进行分词并去掉停用词,可以使用的分词工具有:
StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参见:http://blog.csdn.net/wauwa/article/details/7865526
对于初学要求不高的,中文可以用结巴分词和哈工大的LTP,NLTK用于情感分析也不错。
分词部分的包主要用pip就行了,我没有遇到什么坑。
可视化部分:
可视化的包各种bug比较多,放到后面一起讲,这里先介绍一下要用到的一些包:
networkx
Pyecharts
Igraph
pyLDAvis,这个包真的神仙包,可以快速出图,坑又少https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/
它的图长这样,可以具体调节λ来调整显示,也可以快速显示每个类别的比重,类别内分布等
如果不出意外,运气够好,以上的包pip一下还是可以pip的,如果有意外(debug总是常态嘛,不要怕)可以参见我另一篇讲自然语言初学遇到的问题的博客。如果你有用得顺手的可视化的包也可以自定义写,手段可以多样呀。
语料库信息先放一个,有机会再补充,语料库的获取不是很难。如果是商用需要自己爬数据的话另当别论
https://github.com/codemayq/chinese_chatbot_corpus
分词的难点不在于分,在于分得准确。英文的分词用空格就能分好,所以这一步往往比较简单,中文分词会涉及到专有名词、新兴词语等,所以需要导入专有词文档,同时需要一定的手动监督是否分对,所以中文文本处理中,分词是预处理当中较为重要的一个部分,也比较耗费时间,工作量也较大。
分词的一些原理:
https://blog.csdn.net/nawenqiang/article/details/80847087?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-16&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-16
以jieba分词为例
分词的操作还是很简单的:
import jieba
segments = [
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。