赞
踩
之前看到苏神【重新写了之前的新词发现算法:更快更好的新词发现】中提到了kenlm,之前也自己玩过,没在意,现在遇到一些大规模的文本问题,模块确实好用,前几天还遇到几个差点“弃疗”的坑,解决了之后,就想,不把kenlm搞明白,对不起我浪费的两天。。
kenlm的优点(关于kenlm工具训练统计语言模型):
训练语言模型用的是传统的“统计+平滑”的方法,使用kenlm这个工具来训练。它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。
kenlm是一个C++编写的语言模型工具,具有速度快、占用内存小的特点,也提供了Python接口。
额外需要加载的库:
kenlm
pypinyin
可装可不装的库:pycorrector
笔者的代码可见github,只是粗略整理,欢迎大家一起改:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。