赞
踩
说明
实验要求:对若干条文本进行聚类分析,最终得到几个主题词团。
实验思路:将数据进行预处理之后,先进行结巴分词、去除停用词,然后把文档生成tfidf矩阵,再通过K-means聚类,最后得到几个类的主题词。
实验说明:如何用爬虫获取数据可以参考其他博客,这里我们直接用一个周杰伦的歌词文本为例进行分析,把28条歌词聚成3个类。
摘要
实验源数据放在文件sourceData中,中间文件放在resultData中。
源文件:
结果:
1、结巴分词
直接上代码,经测试后,我采用的是精确模式,效果最好。
# jieba分词 精确模式
def get_jiebaword():
# enconding视文本保存的编码而定,utf-8或gbk
try:
with open('sourceData/JayZhou.txt', "r", encoding='gbk') as fr:
lines = fr.readlines()
except FileNotFoundError:
print("no file like this")
jiebaword = []
for line in lines:
line = line.strip('\n')
# 清除多余的空格
line = "".join(line.split())
# 默认精确模式
seg_list = jieba.cut(line, cut_all=False)
word = "/".join(seg_list)
jiebaword.append(word)
return jiebaword
结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。