当前位置:   article > 正文

文本预处理_文本预处理操作

文本预处理操作

常见预处理步骤,预处理通常包括四个步骤:

  1. 读入文本
  2. 分词
  3. 建立字典,将每个词映射到一个唯一的索引(index)
  4. 将文本从词的序列转换为索引的序列,方便输入模型

现有的工具可以很好地进行分词,我们在这里简单介绍其中的两个:spaCy和NLTK。

text = "Mr. Chen doesn't agree with my suggestion."
  • 1

spaCy:

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(text)
print([token.text for token in doc])

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
NLTK:

from nltk.tokenize import word_tokenize
from nltk import data
data.path.append('/home/kesci/input/nltk_data3784/nltk_data')
print(word_tokenize(text))

['Mr.', 'Chen', 'does', "n't", 'agree', 'with', 'my', 'suggestion', '.']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

两个字符串的处理
string = ’ AbcDe’ # 主要是说明string是一个字符串,下面是视频中涉及到了两个操作
string.strip() # 用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列,在这里是用来删除单词之间的空格和换行符
string.lower() # 将字符串中的所有大写字母都转化成小写

#两者还可以拼起来用:string.strip().lower() 具体的意思也就是上面两个意思拼起来

你知道的越多,你不知道的越多。
有道无术,术尚可求,有术无道,止于术。
如有其它问题,欢迎大家留言,我们一起讨论,一起学习,一起进步

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/707728
推荐阅读
相关标签
  

闽ICP备14008679号