赞
踩
原代码并非我原创,但我在自己的电脑上不断报错,所以加以修改补充后分享给大家,自己运行中需要注意的问题:
1、文本数据保存的时候记得要选择utf-8否则会报错
2、中文停词表自己去网上找就OK啦,网上有很多
3、可以选择读单个文件or文件夹的所有文件,默认的是单个文件,如果要用所有文件,把注释那部分删掉#就可以了
# 文件夹文件读取 #print('读取文件并获取内容...') #all_content = [] # 总列表,用于存储所有文件的文本内容 #for root, dirs, files in os.walk('../清洗过'): # 分别读取遍历目录下的根目录、子目录和文件列表 # for file in files: # 读取每个文件 # file_name = os.path.join(root, file) # 将目录路径与文件名合并为带有完整路径的文件名 # with open(file_name, encoding='utf-8') as f: # 以只读方式打开文件 # data = f.read() # 读取文件内容 # words = jieba.cut(data) # all_content.extend(words) # 从文件内容中获取文本并将结果追加到总列表 # 读取单个文件 with open('/Users/Desktop/上课/文献/LDA/标题.txt', encoding='utf-8') as f: # 打开新的文本,记得改成你文件的路径 data = f.read() # 读取文本数据 text = data words = jieba.cut(text) jieba.suggest_freq('液压支架', True)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。