自然语言处理中的几种文本预处理的写法总结_nlp 判断标点符号

作者：我家自动化 | 2024-06-12 10:27:14

踩

nlp 判断标点符号

写在前面的话

biaji,<(￣3￣)> bia叽，嘎嘎，最近来教大家写点简单又迷人的自然语言处理的代码。

不好意思，原谅我用词不当，毕竟我是菜鸟，也没得资格教别人，the main reason is that 我自己写了给自己看的，你看我就是这样一个正直，又不爱慕虚荣的小公主呢～

感觉自己萌萌哒，啊哈哈哈，不要脸也确实是真的

反正也没有啥子浏览量，估计就是自己每天看自己写的了呢，所以在我的地盘就听我的，啊哈哈哈

这女的一定是刚刚从精神病院里跑出来的。

哦，对了，今天知乎有个推送，笑死我了，怎么在精神病院里证明自己不是神经病！！！！

我的天，好想怒答一波，问这个人的脑子一定刚刚被门挤了吧，啊哈？

这里写图片描述

假装很正紧的正文

其实个人觉得NLP 就是所谓的nature language processing 在计算机领域入门还真的是没有任何难度呢。当然了，个人意见，觉得你安装几个库，nltk,gensim，sklearn，textblob 什么standford parser 斯坦福解析器，然后自己捣鼓捣鼓，学一些分类算法，聚类算法，topic model 算法之后，我觉得你就入门了。

就算你不学算法的各种基本原理，你知道怎么用，你也可以很快上手的。

预处理的话我们要安装一个库，我们就用nltk 来做预处理把，textblob 可以用来修改一些拼写的错误，但是呢，感觉没有考虑语境，所以有时候改正的效果其实并不好，nltk 的处理效果本人觉得也就是那个样子啦。

不过我们先学吧，你得会了才能评价，不会，听别人说怎么滴，那也是跟你没有半毛钱关系的。

我一直用的都是Linux的系统Ubuntu14.04 所以安装也很简单
就是下面这个样子的啦

sudo pip install nltk 1

如果你是用的是conda 那个就这样安装nltk这个库

conda install nltk1

这里我们先讨论英文的文本处理

对于自然语言处理的话，预处理其实就是有那么几个固定的步骤，分词，英文的话可能需要全部转换为小写，去除标点符号，提取词干，出去不是英文的单词，出去特殊的符号，修正错别字。

这篇写的挺好的，这对英文和非英文的处理都在这里了。

http://www.spiderpy.cn/blog/detail/30

一些必须知道的基本概念

在做预处理的时候，我们要知道一些基本的概念，什么叫做分词，什么叫做提取词干

1.分词（Tokenization）

Token 是符号，包括了单词还有标点符号两种。 Tokenization 就是把一句话或者一段话分解成单个的单词和标点。

I like my cat.

这句话分词之后就变成了

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/707698

自然语言处理中的几种文本预处理的写法总结_nlp 判断标点符号

写在前面的话

假装很正紧的正文

一些必须知道的基本概念

1.分词 （Tokenization）

1.分词（Tokenization）