当前位置:   article > 正文

python中文文本预处理_中文文本预处理及表示

python中文文本预处理

文本分类

一、建立语料库

文本数据的获取方法一般有两种:

使用别人做好的语料库

爬虫去获取自己的预料数据

二、文本预处理

1、除去数据中非文本部分

一般可以使用正则表达式去进行删除

2、处理中文编码问题

由于python2不支持unicode的处理,因此使用python2做中文文本预处理需要遵循的原则是,存储数据都用utf8,读出来进行中文相关处理时,使用GBK之类的中文编码。

3、 中文分词

4、 去除停用词

载入停用词

stopwords = pd.read_csv("NLP_project\data\stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'],encoding='utf-8')

stopwords = stopwords['stopword'].values

去停用词

def preprocess_text(content_lines, sentences, category):

for line in content_lines:

try:

segs = jieba.lcut(line)

segs = list(filter(lambda x: len(x) > 1, segs))

segs = list(filter(lambda x: x not in stopwords, segs))

sentences.append((" ".join(segs

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/356708
推荐阅读
相关标签
  

闽ICP备14008679号