当前位置:   article > 正文

ik分词器 分词原理_IK分词器输出多类型词源

ik分词器选择显示词性并选出关键词

背景:

IK分词器分为两种,粗粒度分词和细粒度分词,粗粒度会分为长词,细粒度分出的词比较多,会分出与词库中所有可匹配的词,现在我们想要这样的分词效果如:

关键词:“北京青年路”

粗粒度会分出:

aeb89c0d3aa0ef8ded2a4b6168f9199f.png

细粒度会分出:

5be4fbe737b093e2e616649b690c9892.png

那么我们需要只分出整词、去掉包含词、相同词不去重 如下:

eca61063dae8f5c2165459b26f58824f.png

1、歧义词处理

这个功能实际上是用到了IK的歧义词处理,为什么粗粒度不展示包含词和重复词了?是因为做了歧义词过滤,过程如下:

在IKAegmennter.java的next方法中进行歧义词处理

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/966500
推荐阅读
相关标签
  

闽ICP备14008679号