当前位置:   article > 正文

jieba结巴分词--关键词抽取_jieba分词的原理(文末有维特比算法讲解)

jieba 专利 关键词

前言

实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用了,当然,我认为这应该是正确的操作,不可能一个项目的开始要等你完全搞懂所运用的理论部分。不过,等项目流程跑完,我还是对此耿耿于怀,于是花了一天时间调研学习了一下jieba分词的理论部分,在此做个总结,也是梳理一遍学习的内容,如果有理解不够透彻的地方,欢迎指正。

这篇文章会站在一个初学者的角度来看待结巴分词,欢迎正在学习的同学一起交流。

jieba分词的流程概括

这部分我认为放在开头来看,会很迷惑,不懂的同学看完后还是没有任何感觉,但是我觉得可以在研究具体细节的同时来对照一下这部分内容,会让你在学习的过程中不会犯迷糊。看完整个流程后再返回来思考一遍,条例会更加清晰。

  1. 依据统计词典(模型中这部分已经具备,也可自定义加载)构建统计词典中词的前缀词典。
  2. 依据前缀词典对输入的句子进行DAG(有向无环图)的构造。
  3. 使用动态规划的方法在DAG上找到一条概率最大路径,依据此路径进行分词。
  4. 对于未收录词(是指不在统计词典中出现的词,未收录词怎么识别可以看完第三部分之后思考一下),使用HMM(隐马尔克夫模型)模型,用Viterbi(维特比)算法找出最可能出现的隐状态序列。

注:HMM的理解可以查看李航的统计学习方法,它主要分为三个问题的解决来讲解HMM,如果,你着急搞明白在jieba分词中怎么使用的HMM,可以着重看第三个预测问题。

统计词典

统计词典在jieba包的dict.txt文件中,是开发者已经统计好的词典

17ac27e72dfa7ea86d9025b0726ca507.png

cc94d3029600b4d0ebc662a0bd606633.png
dict.txt里的内容

dict.txt里第一列代表的是词语,第二列是词频,第三列是词性,我们主要用到前两列信息,词性这部分,这里没有涉及。

前缀词典

当程序运行的时候,它会加载统计词典生成前缀词典,前缀词典是表示什么的呢,我们举个简单的例子。

比如统计词典中含有如下词语

  1. 123
  2. 234
  3. 学习 456
  4. 结巴 345
  5. 分词 456
  6. 结巴分词
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/281547
推荐阅读
相关标签
  

闽ICP备14008679号