赞
踩
针对前面学习的 Python读取文本内容、中文文本预处理、利用jieba对中文进行分词、中文分词后去除停用词、调整jieba分词结果,我们已经掌握了中文文本处理的各个步骤的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成对中文的文本处理:
import jieba import re import jieba.posseg as pseg filename = '白雪公主片段' filepath1 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/白雪公主片段.txt' filepath2 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt' def stopwordslist(filepath2): # 定义函数创建停用词列表 stopword = [line.strip() for line in open(filepath2, 'r').readlines()] #以行的形式读取停用词表,同时转换为列表 return stopword def pretext(filename,filepath1): #定义函数 try: with open(filepath1,encoding='UTF-8') as file: contents = file.read() #读取文本文件 print('【读取的文本为:】'+'\n'+contents
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。