当前位置:   article > 正文

LDA中文文本挖掘代码分享_zxcvbygll

zxcvbygll

原代码并非我原创,但我在自己的电脑上不断报错,所以加以修改补充后分享给大家,自己运行中需要注意的问题:

1、文本数据保存的时候记得要选择utf-8否则会报错

2、中文停词表自己去网上找就OK啦,网上有很多

3、可以选择读单个文件or文件夹的所有文件,默认的是单个文件,如果要用所有文件,把注释那部分删掉#就可以了

# 文件夹文件读取
#print('读取文件并获取内容...')
#all_content = []  # 总列表,用于存储所有文件的文本内容
#for root, dirs, files in os.walk('../清洗过'):  # 分别读取遍历目录下的根目录、子目录和文件列表
#   for file in files:  # 读取每个文件
#        file_name = os.path.join(root, file)  # 将目录路径与文件名合并为带有完整路径的文件名
#        with open(file_name, encoding='utf-8') as f:  # 以只读方式打开文件
#            data = f.read()  # 读取文件内容
#            words = jieba.cut(data)
#        all_content.extend(words)  # 从文件内容中获取文本并将结果追加到总列表


# 读取单个文件
with open('/Users/Desktop/上课/文献/LDA/标题.txt', encoding='utf-8') as f:  
# 打开新的文本,记得改成你文件的路径
     data = f.read()  # 读取文本数据
text = data
words = jieba.cut(text)
jieba.suggest_freq('液压支架', True)
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/712108
推荐阅读
相关标签
  

闽ICP备14008679号