当前位置:   article > 正文

自然语言处理的基本预处理(分词,停用词记载,获得高频词语)_自然语言处理找高频词

自然语言处理找高频词

记录小白学习之路

自然语言处理的基本预处理(分词,停用词记载,获得高频词语)

-- coding: utf-8 --

#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
#对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇

# -*- coding: utf-8 -*-
#jieba分词示例
#strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
#对文本进行预处理 停用词记载 分词 词性标注 以及统计高频词汇
import jieba
import jieba.posseg as psg
from gensim import corpora,models
from jieba import analyse
import functools
import math


# 停用词表加载方法
def get_stopword_list():
    # 停用词表存储路径,每一行为一个词,按行读取进行加载
    # 进行编码转换确保匹配准确率
    stop_word_path = './停用词.txt'
    stopword_list = [sw.replace('\n', '') for sw in open(stop_word_path,encoding='utf-8').read
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/711996
推荐阅读
相关标签
  

闽ICP备14008679号