赞
踩
中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3.6开发。pycorrector
依据语言模型检测错别字位置,通过拼音音似特征
、笔画五笔编辑距离
特征及语言模型困惑度
特征纠正错别字。
https://www.borntowin.cn/product/corrector
中文文本纠错任务,常见错误类型包括:
当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音识别后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手写输入等。
作者开源代码中介绍有两种安装方式: + pip
安装
pip install pycorrector
用户:适合做工程实践,不关心算法细节,直接调包使用。
- git clone https://github.com/shibing624/pycorrector.git
- cd pycorrector
- python setup.py install
用户:希望了解代码实现,做一些深层次修改。
我们详细讲解第二种-源码安装方式。除了完成上面源码安装步骤外,我们还需要安装一些必要的库。
pip install -r requirements.txt
kenlm
是一个统计语言模型的开源工具,如图所示,代码96%
都是C++
实现的,所以效率极高,训练速度快,在GitHub上现有1.1K Star
pip
安装kenlm安装命令如下
pip install kenlm
pip
安装,报了如下错误,机器环境(MAC OS 10.15.4)
。 若报错,则进行如下源码安装kenlm
,安装成功则跳过该步骤。
python setup.py install
如下图所示,则已经安装成功。
代码结构如下(clone时间2020/5/5):
- .
- ├── LICENSE
- ├── README.md
- ├── _config.yml
- ├── build
- │ ├── bdist.macosx-10.7-x86_64
- │ └── lib
- ├── dist
- │ └── pycorrector-0.2.7-py3.6.egg
- ├── docs
- │ ├── git_image
- │ ├── logo.svg
- │ └── 基于深度学习的中文文本自动校对研究与实现.pdf
- ├── examples
- │ ├── base_demo.py
- │ ├── detect_demo.py
- │ ├── disable_char_error.py
- │ ├── en_correct_demo.py
- │ ├── load_custom_language_model.py
- │ ├── my_custom_confusion.txt
- │ ├── traditional_simplified_chinese_demo.py
- │ └── use_custom_confusion.py
- ├── pycorrector
- │ ├── __init__.py
- │ ├── __main__.py
- │ ├── __pycache__
- │ ├── bert
- │ ├── config.py
- │ ├── conv_seq2seq
- │ ├── corrector.py
- │ ├── data
- │ ├── deep_context
- │ ├── detector.py
- │ ├── en_spell.py
- │ ├── seq2seq_attention
- │ ├── transformer
- │ ├── utils
- │ └── version.py
- ├── pycorrector.egg-info
- │ ├── PKG-INFO
- │ ├── SOURCES.txt
- │ ├── dependency_links.txt
- │ ├── not-zip-safe
- │ ├── requires.txt
- │ └── top_level.txt
- ├── requirements-dev.txt
- ├── requirements.txt
- ├── setup.py
- └── tests
- ├── bert_corrector_test.py
- ├── char_
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。