当前位置:   article > 正文

如何在jieba分词中加自定义词典_R-数据挖掘 | jiebaR 分词

结巴分词器添加自定义词汇

779937d01572429938df1123051e6c03.png

一、jiebaR主要函数

43bc1b9aba2453deacc163b03d4ee9b1.png

1.worker():加载jiebaR库的分词引擎

  1. worker(type = "mix", dict = DICTPATH, hmm = HMMPATH, user = USERPATH,
  2. idf = IDFPATH, stop_word = STOPPATH, write = T, qmax = 20, topn = 5,
  3. encoding = "UTF-8", detect = T, symbol = F, lines = 1e+05,
  4. output = NULL, bylines = F, user_weight = "max")
  5. --------------------
  6. ## 参数解释
  7. type, 引擎类型
  8. dict, 系统词典
  9. hmm, HMM模型路径
  10. user, 用户词典
  11. idf, IDF词典
  12. stop_word, 关键词用停止词库
  13. write, 是否将文件分词结果写入文件,默认FALSE
  14. qmax, 最大成词的字符数,默认20个字符
  15. topn, 关键词数,默认5
  16. encoding, 输入文件的编码,默认UTF-8
  17. detect, 是否编码检查,默认TRUE
  18. symbol, 是否保留符号,默认FALSE
  19. lines, 每次读取文件的最大行数,用于控制读取文件的长度。大文件则会分次读取。
  20. output, 输出路径
  21. bylines, 按行输出
  22. user_weight, 用户权重

jiebaR库提供了八种分词引擎:

混合模型(MixSegment)

四个分词引擎里面分词效果较好的类,使用最大概率法和隐式马尔科夫模型

最大概率法(MPSegment)

负责根据Trie树构建有向无环图和进行动态规划算法,是分词算法的核心

隐式马尔科夫模型(HMMSegment)

根据基于人民日报等语料库构建的HMM模型来进行分词,主要算法思路是根据(B,E,M,S)四个状态来代表每个字的隐藏状态,HMM模型由dict/hmm_model.utf8提供,分词算法即viterbi算法。

索引模型(QuerySegment)

先使用混合模型进行切词,再对于切出来的较长的词,枚举句子中所有可能成词的情况,找出词库里存在

标记模型(tag)

Simhash模型(simhash)

关键词模型(keywods)

FullSegment模型(Full)

2.分词语法:[]、<=和segment函数

jiebaR提供了3种分词语句写法:[]符号语法、<=符号语法、segment()函数,三者形式不同,但分词效果一样。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/243401
推荐阅读
相关标签
  

闽ICP备14008679号