当前位置:   article > 正文

python | 高效统计语言模型kenlm:新词发现、分词、智能纠错_kenlm 分词

kenlm 分词

之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。

kenlm的优点(关于kenlm工具训练统计语言模型):
训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。
kenlm是一个C++编写的语言模型工具,具有速度快、占用内存小的特点,也提供了Python接口。

额外需要加载的库:

kenlm
pypinyin
  • 1
  • 2

可装可不装的库:pycorrector
笔者的代码可见github,只是粗略整理,欢迎大家一起改:

mattzheng/py-kenlm-model


文章目录

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/357117
推荐阅读
相关标签
  

闽ICP备14008679号