当前位置:   article > 正文

NLP之文本预处理详解

文本预处理

入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。

Ps预防针:与英文分类文本预处理相比,中文分类文本预处理更加复杂关键

目录

一、进行文本预处理的原因

二、去除停用词

1、停用词

2、去除停用词

三、中文分词技术

1、分词处理的原因

2、基于词典(规则)的中文分词

3、基于统计的中文分词方法


一、进行文本预处理的原因

解决特征空间高维性、特征分布稀疏和语义相关性

毕竟计算机不是人嘛,我们的语言需要经过一定的预处理让他们可以读入以及方便后续训练分类,

接下来我们来说说文本预处理有哪些常用的方法


二、去除停用词(特征提取的一种)

1、停用词

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/682494
推荐阅读
相关标签