赞
踩
1、文本纠错包安装:
pip install https://github.com/kpu/kenlm/archive/master.zip
pip install pycorrector
注意:必须先安装kenlm包,再安装pycorrector,否则安装失败
2、中文文本纠错任务,常见错误类型包括:
3、加载包使用
# -*- coding: utf-8 -*-
# 导入包
import pycorrector
corrected_sent, detail = pycorrector.correct('少先队员因该为老人让坐')
print(corrected_sent, detail)
默认会从路径 ~/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm 加载kenlm语言模型文件,如果检测没有该文件,则程序会自动联网下载。当然也可以手动下载 。
如果电脑吃内存,不想用大模型,也可用小模型小试牛刀。小模型下载的地址如下:
小模型下载地址(模型文件20M)
下载好之后,放在代码同一层级的目录里面即可。
下面我们加载小模型,使用它进行纠错尝试。
# -*- coding: utf-8 -*-
# 导入包
import os
from pycorrector import Corrector
lm_path = os.path.join('D:/people_chars_lm.klm')
model = Corrector(language_model_path=lm_path)
corrected_sent, detail = model.correct('少先队员因该为老人让坐')
print(corrected_sent, detail)
注意:路径不要有中文哦。否则报错哦
输出结果:
少先队员应该为老人让坐 [['因该', '应该', 4, 6]]
Process finished with exit code 0
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。