当前位置:   article > 正文

自然语言处理学习 nltk----分词_分词 nltk 符号

分词 nltk 符号

 

1. nltk.word_tokenize ( text ) : 直接的分词,比如:“ isn't ” 被分割为 " is " 和 “ n't ”

 2. WordPunctTokenizer ( ) : 单词标点分割,比如:“ isn't ”被分割为" isn ", " ' " 和 " t "

     注意WordPunctTokenizer ( )的用法。

 3. TreebankWordTokenizer ( 宾夕法尼亚州立大学 Treebank 单词分割器):比如:" isn't "被分割为" is " 和 " n't "

4. WhitespaceTokenizer() : 空格符号分割,就是split(' ')最简单的一个整体,没有被分割

 5. PunktWordTokenizer() :

这个有问题,emmmm,还没解决,先留个坑吧

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

    

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/729592
推荐阅读
相关标签
  

闽ICP备14008679号