赞
踩
本文记录一下自己标注的数据,到训练后模型转换的流程;本文只训练识别模型。
Python == 3.8
Paddlepaddle >=2.0
PaddleOCR >= 2.0
这里数据使用的是中科院手写数据集及网上开数据;整合后处理尺寸最大为640*32;训练24w,测试1.7w;可直接用于paddleOCR的训练。
数据下载链接:
https://aistudio.baidu.com/aistudio/datasetdetail/102884
cd ./PPOCRLabel
python PPOCRLabel.py --lang ch
python tools/train.py -c ./configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml 2>&1 | tee train_rec.log
python ./tools/export_model.py
-c ./configs/rec/ch_ppocr_v2.0/rec_chinese_lite_train_v2.0.yml
-o Global.pretrained_model=./ch/best_accuracy
Global.load_static_weights=False
Global.save_inference_dir=./out/
python tools/infer/predict_system.py --image_dir="./doc/imgs/11.jpg" --det_model_dir="./inference/ch_ppocr_mobile_v2.0_det_infer/" --rec_model_dir="./inference/ch_ppocr_mobile_v2.0_rec_infer/" --cls_model_dir="./inference/ch_ppocr_mobile_v2.0_cls_infer/" --use_angle_cls=True --use_space_char=True
我这里训练的手写体数据,原来的打印体精度变差很多。。。
import os
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'
https://github.com/PaddlePaddle/PaddleOCR
http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。