赞
踩
记录小白学习之路
自然语言处理的基本预处理(分词,停用词记载,获得高频词语)
#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
#对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇
# -*- coding: utf-8 -*- #jieba分词示例 #strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 #对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇 import jieba import jieba.posseg as psg from gensim import corpora,models from jieba import analyse import functools import math # 停用词表加载方法 def get_stopword_list(): # 停用词表存储路径,每一行为一个词,按行读取进行加载 # 进行编码转换确保匹配准确率 stop_word_path = './停用词.txt' stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').read
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。