当前位置:   article > 正文

第四课 kaggle自然语言处理_kaggle有什么语料库

kaggle有什么语料库

NLTK

自然语言处理库,自带语料库,词性分类库。要记得安装语料库。

  1. import nltk
  2. nltk.download()
Tokenize 

拆句子,拆小

英文分词

  1. import nltk
  2. sentence = 'hello world'
  3. tokens = nltk.word_tokenize(sentence)
  4. tokens

社交语言的分词 表情符号需要用正则表达式去匹配

中文分词 启发式Heuristic 或者 机器学习统计方法 可以用Jieba

  1. import jieba
  2. seg_list = jieba.cut('啊啊啊',cut_all=Ture) #全模式 False是精准模式分词
分词之后

是一个数组,比如

word = ['i','am','a','fool']

英文单词比较复杂,为了降低复杂度,一般要经过词干提取(stemming)和词形归一(lemma)。

walking 变成 walk 去掉了ing的后缀,因为它不影响词性

went 变成 go 去掉了过去式模式,不影响词性

  1. from nlk.stem.porter import PorterStemmer
  2. porter_stemmer = PorterStemmer()
  3. porter_
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/552582
推荐阅读
相关标签
  

闽ICP备14008679号