赞
踩
文本是人类知识的重要载体,也是最广泛存在和最容易获取的数据类型。文本分析是一种通过对文本数据进行处理和分析来提取有用信息的技术。它可以应用于多种领域,包括自然语言处理、数据挖掘、情感分析等。
NLPIR在线演示平台https://online.lingjoin.com/#/
可以直接粘贴放到上面。也可以输入url。url获取方法可以网上查找资料获取。
分词标注:标注如何分词以及词性,大家可以通过这个来判断分析效果
实体抽取:这个如果做知识图谱会有帮助
词频统计:这个结果可以导出为png图片。
情感分析结果
关键词分析结果
导入所需库
- import jieba
- import wordcloud
- from imageio import imread
读取文本文件
- with open('坚持以生为本 助推学生发展.txt', 'r', encoding='utf-8') as f:
- txt = f.read()
中文分词:
wordList = jieba.lcut(txt)
生成词云字符串:
wcstr = ' '.join(wordList)
读取形状图片:
maskim = imread('shape.jpg')
生成词云对象:
- wc = wordcloud.WordCloud(
- font_path='msyh.ttc', # 指定中文字体路径
- width=640,
- height=480,
- background_color='white', # 设置背景颜色
- mask=maskim # 使用图片作为词云的形状
- )
生成词云
wcim = wc.generate(wcstr)
保存词云
wcim.to_image().save('result.png')
- import jieba
- import wordcloud
- from imageio import imread
-
- f = open('坚持以生为本 助推学生发展.txt', 'r', encoding='utf-8')
- txt = f.read()
- f.close()
-
- wordList = jieba.lcut(txt)
- wcstr = ' '.join(wordList)
-
- maskim = imread('shape.jpg')
-
- wc = wordcloud.WordCloud(
- 'msyh.ttc', width=640, height=480,
- background_color='white', mask=maskim)
-
- wcim = wc.generate(wcstr)
- wcim.to_image().save('result.png')
本机上已经有msyh.ttc这个中文字体文件,并且它位于你的代码执行路径中。
确保图片文件也需要在你的代码执行路径中,以便imageio.imread能够正确读取它。
生成的词云图片在代码相同的文件夹下。
Flourish | Data Visualization & Storytelling
在线可视化平台比较方便,因为都是一键化的。但是要想达到自己定制化的效果需要费一番心思,还是要具备一些编程能力。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。