赞
踩
biaji,<( ̄3 ̄)> bia叽,嘎嘎,最近来教大家写点简单又迷人的自然语言处理的代码。
不好意思,原谅我用词不当,毕竟我是菜鸟,也没得资格教别人,the main reason is that 我自己写了给自己看的,你看我就是这样一个正直,又不爱慕虚荣的小公主呢~
感觉自己萌萌哒,啊哈哈哈,不要脸也确实是真的
反正也没有啥子浏览量,估计就是自己每天看自己写的了呢,所以在我的地盘就听我的,啊哈哈哈
这女的一定是刚刚从精神病院里跑出来的。
哦,对了,今天知乎有个推送,笑死我了,怎么在精神病院里证明自己不是神经病!!!!
我的天,好想怒答一波,问这个人的脑子一定刚刚被门挤了吧,啊哈?
其实个人觉得NLP 就是所谓的nature language processing 在计算机领域入门还真的是没有任何难度呢。当然了,个人意见,觉得你安装几个库,nltk,gensim,sklearn,textblob 什么standford parser 斯坦福解析器,然后自己捣鼓捣鼓,学一些分类算法,聚类算法,topic model 算法之后,我觉得你就入门了。
就算你不学算法的各种基本原理,你知道怎么用,你也可以很快上手的。
预处理的话我们要安装一个库,我们就用nltk 来做预处理把,textblob 可以用来修改一些拼写的错误,但是呢,感觉没有考虑语境,所以有时候改正的效果其实并不好,nltk 的处理效果本人觉得也就是那个样子啦。
不过我们先学吧,你得会了才能评价,不会,听别人说怎么滴,那也是跟你没有半毛钱关系的。
我一直用的都是Linux的系统Ubuntu14.04 所以安装也很简单
就是下面这个样子的啦
sudo pip install nltk
如果你是用的是conda 那个就这样安装nltk这个库
conda install nltk
这里我们先讨论英文的文本处理
对于自然语言处理的话,预处理其实就是有那么几个固定的步骤,分词,英文的话可能需要全部转换为小写,去除标点符号,提取词干,出去不是英文的单词,出去特殊的符号,修正错别字。
这篇写的挺好的,这对英文和非英文的处理都在这里了。
http://www.spiderpy.cn/blog/detail/30
在做预处理的时候,我们要知道一些基本的概念,什么叫做分词,什么叫做提取词干
Token 是符号,包括了单词还有标点符号两种。 Tokenization 就是把一句话或者一段话分解成单个的单词和标点。
I like my cat.
这句话分词之后就变成了
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。