赞
踩
文本分类
一、建立语料库
文本数据的获取方法一般有两种:
使用别人做好的语料库
爬虫去获取自己的预料数据
二、文本预处理
1、除去数据中非文本部分
一般可以使用正则表达式去进行删除
2、处理中文编码问题
由于python2不支持unicode的处理,因此使用python2做中文文本预处理需要遵循的原则是,存储数据都用utf8,读出来进行中文相关处理时,使用GBK之类的中文编码。
3、 中文分词
4、 去除停用词
载入停用词
stopwords = pd.read_csv("NLP_project\data\stopwords.txt", index_col=False, quoting=3, sep="\t", names=['stopword'],encoding='utf-8')
stopwords = stopwords['stopword'].values
去停用词
def preprocess_text(content_lines, sentences, category):
for line in content_lines:
try:
segs = jieba.lcut(line)
segs = list(filter(lambda x: len(x) > 1, segs))
segs = list(filter(lambda x: x not in stopwords, segs))
sentences.append((" ".join(segs
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。