当前位置:   article > 正文

python基础(1)中文文本分析_python中文文本分析

python中文文本分析

中文文本分析相关库

中文分词jiaba库

jieba库主要函数
函数 描述
jiba.cut(s) 精确模式,返回一个可迭代数据类型
jieba.cut(s,cut_all=True) 全模式,输出文本s中所有可能单词
jiba.cut_for_search(s) 搜索引擎模式,适合搜索引擎建立索引的分词结果
jiaba.lcut(s) 精确模式,返回一个列表类型
jieba.lcut(s,cut_all=True) 全模式,返回一个列表类型
jieba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型
jiaba.lcut_for_search(s) 搜索引擎模式,返回一个列表类型
jiaba.add_word(w) 向分词词典中增加新词w

精确分词模式

>>>import jieba
>>>s='我爱北京天安门'
>>>for x in jieba.cut(s):   #jieba.cut()返回一个可迭代类型
    	print(x,end=' ')
我 爱 北京 天安门 
>>> jieba.lcut(s)
['我', '爱', '北京', '天安门']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

全模式分词

>>> import jieba
>>> s='我爱北京天安门'
>>> for x in jieba.cut(s,cut_all=True):
    	print(x,end=' ')
    
我 爱 北京 天安 天安门
>>> jieba.lcut(s,cut_all=True)
['我', '爱', '北京', '天安', '天安门']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
>>> impo
    声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/376264
    推荐阅读
    相关标签
      

    闽ICP备14008679号