当前位置:   article > 正文

自然语言处理(nlp)的流程图_自然语言处理技术的流程图是怎么样的

自然语言处理技术的流程图是怎么样的

1. 读取原始数据

html = urlopen(url).read()


2. 数据清洗

raw = nltk.clean_html(html)


3. 数据切片

raw = raw[111:2222222]


4. 数据分词

tokens = nltk.wordpunct_tokenize(raw)

或者

tokens = nltk.word_tokenize(raw)


5. 分词切片

tokens = tokens[20:222222]


6. 文本转换 (或者不需要)

text = nltk.Text(tokens)


7. 词汇获取

words = [w.lower() for w in text]

vocab = sorted(set(words))

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号