当前位置:   article > 正文

中文文本处理总结(读取文本、文本预处理、分词、去除停用词)_读入中文语料库(了不起的盖茨比)gaicibi.txt,对文本进行预处理操作,包括分词,换行

读入中文语料库(了不起的盖茨比)gaicibi.txt,对文本进行预处理操作,包括分词,换行
中文文本处理总结(读取文本、文本预处理、分词、去除停用词

 针对前面学习的 Python读取文本内容中文文本预处理利用jieba对中文进行分词中文分词后去除停用词调整jieba分词结果,我们已经掌握了中文文本处理的各个步骤的方法,现在对以上学习的知识做个总结,用一个例子把它们汇总在一起,完成对中文的文本处理:

import jieba
import re
import jieba.posseg as pseg

filename = '白雪公主片段'    
filepath1 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/白雪公主片段.txt'
filepath2 = 'D:/大学工作所做文档/学习资料/毕业设计学习准备/编程学习/stop_words.txt' 

def stopwordslist(filepath2):    # 定义函数创建停用词列表
    stopword = [line.strip() for line in open(filepath2, 'r').readlines()]    #以行的形式读取停用词表,同时转换为列表
    return stopword

def pretext(filename,filepath1):     #定义函数
    try:
        with open(filepath1,encoding='UTF-8') as file:
            contents = file.read()                      #读取文本文件
            print('【读取的文本为:】'+'\n'+contents
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/473984
推荐阅读
相关标签
  

闽ICP备14008679号