当前位置:   article > 正文

一、jieba分词_jieba返回类型

jieba返回类型

  1. import jieba
  2. content='番薯,是旋花科虎掌藤属多年生草质藤本植物,具有乳汁。块根为白、红或黄色;茎生不定根'

1、cut方法

  1. # jieba.cut返回的是一个生成器对象,需要用list方法转换
  2. # cut_all默认为False,如果为True,则是全模式分词
  3. list(jieba.cut(content, cut_all=False))

2、lcut方法

  1. # 使用lcut会直接返回列表而不是生成器对象
  2. jieba.lcut(content, cut_all=True)

3、cut_for_search

  1. # 搜索引擎模式分词
  2. # 在精确模式的基础上。对长词再次切分,提高召回率,适合用于搜索引擎分词
  3. jieba.lcut_for_search(content)

4、使用用户自定义的词典

'''txt:userdict.txt

        八一双鹿

'''

  1. # 使用用户自定义词典
  2. # 添加自定义词典之后,jieba能准确识别词典中出现的词汇,提升整体的识别准确率
  3. # 词典格式:每一行分三部分:词语 词频 词性,用空格隔开,顺序不可以颠倒
  4. # 例如:云计算 5 n
  5. jieba.lcut('八一双鹿更名为八一南昌篮球队!')
  6. jieba.load_userdict('./userdict.txt')
  7. jieba.lcut('八一双鹿更名为八一南昌篮球队!')

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/348435
推荐阅读
相关标签
  

闽ICP备14008679号