文本预处理_文本预处理操作

作者：小丑西瓜9 | 2024-06-12 10:37:47

踩

文本预处理操作

常见预处理步骤，预处理通常包括四个步骤：

读入文本
分词
建立字典，将每个词映射到一个唯一的索引（index）
将文本从词的序列转换为索引的序列，方便输入模型

现有的工具可以很好地进行分词，我们在这里简单介绍其中的两个：spaCy和NLTK。

text = "Mr. Chen doesn't agree with my suggestion."
1


spaCy:

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
1
2
3
4
5
6
7
8
9

NLTK:

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
print(word_tokenize(text))

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
1
2
3
4
5
6
7
8

两个字符串的处理
string = ’ AbcDe’ # 主要是说明string是一个字符串,下面是视频中涉及到了两个操作
string.strip() # 用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列，在这里是用来删除单词之间的空格和换行符
string.lower() # 将字符串中的所有大写字母都转化成小写

#两者还可以拼起来用：string.strip().lower() 具体的意思也就是上面两个意思拼起来

你知道的越多，你不知道的越多。
有道无术，术尚可求，有术无道，止于术。
如有其它问题，欢迎大家留言，我们一起讨论，一起学习，一起进步

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/707728