当前位置:   article > 正文

自然语言处理中的几种文本预处理的写法总结_nlp 判断标点符号

nlp 判断标点符号

写在前面的话

biaji,<( ̄3 ̄)> bia叽,嘎嘎,最近来教大家写点简单又迷人的自然语言处理的代码。

不好意思,原谅我用词不当,毕竟我是菜鸟,也没得资格教别人,the main reason is that 我自己写了给自己看的,你看我就是这样一个正直,又不爱慕虚荣的小公主呢~

感觉自己萌萌哒,啊哈哈哈,不要脸也确实是真的

反正也没有啥子浏览量,估计就是自己每天看自己写的了呢,所以在我的地盘就听我的,啊哈哈哈

这女的一定是刚刚从精神病院里跑出来的。

哦,对了,今天知乎有个推送,笑死我了,怎么在精神病院里证明自己不是神经病!!!!

我的天,好想怒答一波,问这个人的脑子一定刚刚被门挤了吧,啊哈?

这里写图片描述


假装很正紧的正文

其实个人觉得NLP 就是所谓的nature language processing 在计算机领域入门还真的是没有任何难度呢。当然了,个人意见,觉得你安装几个库,nltk,gensim,sklearn,textblob 什么standford parser 斯坦福解析器,然后自己捣鼓捣鼓,学一些分类算法,聚类算法,topic model 算法之后,我觉得你就入门了。

就算你不学算法的各种基本原理,你知道怎么用,你也可以很快上手的。

预处理的话我们要安装一个库,我们就用nltk 来做预处理把,textblob 可以用来修改一些拼写的错误,但是呢,感觉没有考虑语境,所以有时候改正的效果其实并不好,nltk 的处理效果本人觉得也就是那个样子啦。

不过我们先学吧,你得会了才能评价,不会,听别人说怎么滴,那也是跟你没有半毛钱关系的。

我一直用的都是Linux的系统Ubuntu14.04 所以安装也很简单
就是下面这个样子的啦

sudo pip install nltk 
  • 1

如果你是用的是conda 那个就这样安装nltk这个库

conda install nltk
  • 1

这里我们先讨论英文的文本处理

对于自然语言处理的话,预处理其实就是有那么几个固定的步骤,分词,英文的话可能需要全部转换为小写,去除标点符号,提取词干,出去不是英文的单词,出去特殊的符号,修正错别字。

这篇写的挺好的,这对英文和非英文的处理都在这里了。

http://www.spiderpy.cn/blog/detail/30

一些必须知道的基本概念

在做预处理的时候,我们要知道一些基本的概念,什么叫做分词,什么叫做提取词干

1.分词 (Tokenization)

Token 是符号,包括了单词还有标点符号两种。 Tokenization 就是把一句话或者一段话分解成单个的单词和标点。

I like my cat.

这句话分词之后就变成了


                
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/707698
推荐阅读
相关标签
  

闽ICP备14008679号