赞
踩
wordcloud以及jieba的使用
词云也叫文字云,是一种可视化的结果呈现,常用在爬虫数据分析中,原理就是统计文本中高频出现的次,过滤掉某些干扰词,将结果生成一张图片,直观得到分析后数据的重要信息。
常用到的库就是wordcloud和jieba
还没有安装的话,先打开命令行格式
输入pip install wordcloud 下载wordcloud库
输入pip install jieba 下载jieba库
WordCloud对象常用参数
WordCloud是生成词云图的
而JieBa是优秀的中文分词库。它的原理是利用一个中文词库,确定中文字符之间的关联概率,汉字间概率大的组成词组,形成分词结果,除了分词,还可以添加自定义词组。
使用jieba.lcut(s),返回列表型分词结果
好了,这两个库的原理大概就是这样了。
今天测试的文档是B站入站必刷视频的有关信息
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。