赞
踩
WordCloud(font_path=None, width=400, height-200,margin=2,mask=None, max_words=200, min_font_size=4, stopwords=None,background_color='black', max_font_size=None, font_step=1)
import wordcloud as wc
import random
word_cloud = wc.WordCloud()
res = random.choices(["Python","Hello","中国","人民","World","program","first","PHP"], k=100)
text = " ".join(res)
print(text)
word_cloud.generate(text)
word_cloud.to_file("abab.png")
当字符串中有中文时,生成的词云图会变成方框。
这是因为不支持中文,我们需要添加字体文件。我们可以去c盘中(C:\Users\Administrator\AppData\Local\Microsoft\Windows\Fonts)复制一个字体文件放在python目录(D:\code\python\python37\libs)中。
然后在代码中指定font路径。
word_cloud = WordCloud(font_path=r'D:\code\python\python37\libs\simfang.ttf')
显示图片
import matplotlib.pyplot as plt
# 显示词云图
plt.imshow(word_cloud)
plt.show()
(1) 精准模式:把文本精准地分开,不存在冗余
(2) 全模式:把文中所有可能的词语都扫描出来,存在元余(2)
(3) 搜索引擎模式:在精准模式的基础上,再次对长词进行切分
jieba.cut(sentence, cut_all=False, HMM=True)
:sentence表示需要分词的句子,cut_all表示是否采用全模式,HMM 表示是否使用 HMM ( 隐马尔可夫模型 )模型jieba.cut_for_search(sentence, HMM=True)
:sentence表示需要分词的句子,HMM表示是否使用 HMM模型,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细;jieba.cut()
方法和 jieba.cut_for_search()
方法返回的结果都是可迭代对象,可使用 for 循环获取分词后得到的每一个词语,此外,jieba.lcut()
和 jieba.lcut_for_search()
效果分别和jieba.cut()
和 jieba.cut_for_search()
效果类似,直接返回列表add_word(word, freq=None, tag=None)
和 del_word(word)
可在程序中动态修改词典import jieba from PIL import Image import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud # 读取图片 mask = np.array(Image.open("ciyun1.png")) # 创建词云 words = WordCloud(font_path="msyh.ttc",mask=mask,background_color="black",width=1000,height=700,min_font_size=6) with open("text.txt","r+",encoding="utf-8") as fp: text = fp.read() # 读取文件内容 text = " ".join(jieba.lcut(text))#通过空格连接分好的词 words.generate(text) # 生成词云 words.to_file('abc.png') # 保存词云图 plt.imshow(words) # 显示图片 plt.axis("off")#不显示坐标轴 plt.show()# #显示图
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。