python | 高效统计语言模型kenlm：新词发现、分词、智能纠错_kenlm 分词

作者：你好赵伟 | 2024-04-04 02:38:55

踩

kenlm 分词

之前看到苏神【重新写了之前的新词发现算法：更快更好的新词发现】中提到了kenlm，之前也自己玩过，没在意，现在遇到一些大规模的文本问题，模块确实好用，前几天还遇到几个差点“弃疗”的坑，解决了之后，就想，不把kenlm搞明白，对不起我浪费的两天。。

kenlm的优点（关于kenlm工具训练统计语言模型）：
训练语言模型用的是传统的“统计+平滑”的方法，使用kenlm这个工具来训练。它快速，节省内存，最重要的是，允许在开源许可下使用多核处理器。
kenlm是一个C++编写的语言模型工具，具有速度快、占用内存小的特点，也提供了Python接口。

额外需要加载的库：

kenlm
pypinyin
1
2

可装可不装的库：pycorrector
笔者的代码可见github，只是粗略整理，欢迎大家一起改:

mattzheng/py-kenlm-model

文章目录

1 kenlm安装

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/你好赵伟/article/detail/357117