赞
踩
深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上鸿蒙开发知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
官方网址:https://github.com/PaddlePaddle/PaddleOCR
PaddleOCR是基于PaddlePaddle深度学习框架的开源OCR工具,但它提供了推理模型/训练模型/预训练模型,用户可以直接使用推理模型进行识别,也可以对训练模型或预训练模型进行再训练。支持约80种语言的文本识别,并具有较高的准确性和速度。
import cv2
from paddleocr import PaddleOCR
# 使用默认模型路径
paddleocr = PaddleOCR(lang='ch', show_log=False)
img = cv2.imread('ch2.jpg') # 打开需要识别的图片
result = paddleocr.ocr(img)
for i in range(len(result[0])):
print(result[0][i][1][0]) # 输出识别结果
import cv2
from paddleocr import PaddleOCR
# 设定模型路径
paddleocr = PaddleOCR(lang='ch', show_log=False,
det_model_dir='.paddleocr\\whl\\det\\ch\\ch\_PP-OCRv4\_det\_infer',
rec_model_dir='.paddleocr\\whl\\rec\\ch\\ch\_PP-OCRv4\_rec\_infer') # 推理模型路径
img = cv2.imread('ch2.jpg') # 打开需要识别的图片
result = paddleocr.ocr(img)
for i in range(len(result[0])):
print(result[0][i][1][0]) # 输出识别结果
在使用PaddleOCR进行模型推理时,可以自定义修改参数,来修改模型、数据、预处理、后处理等内容,详细的参数解释如下所示。
参数名称 | 类型 | 默认值 | 含义 |
---|---|---|---|
image_dir | str | 无,必须显式指定 | 图像或者文件夹路径 |
page_num | int | 0 | 当输入类型为pdf文件时有效,指定预测前面page_num页,默认预测所有页 |
vis_font_path | str | “./doc/fonts/simfang.ttf” | 用于可视化的字体路径 |
drop_score | float | 0.5 | 识别得分小于该值的结果会被丢弃,不会作为返回结果 |
use_pdserving | bool | False | 是否使用Paddle Serving进行预测 |
warmup | bool | False | 是否开启warmup,在统计预测耗时的时候,可以使用这种方法 |
draw_img_save_dir | str | “./inference_results” | 系统串联预测OCR结果的保存文件夹 |
save_crop_res | bool | False | 是否保存OCR的识别文本图像 |
crop_res_save_dir | str | “./output” | 保存OCR识别出来的文本图像路径 |
use_mp | bool | False | 是否开启多进程预测 |
total_process_num | int | 6 | 开启的进程数,use_mp 为True 时生效 |
process_id | int | 0 | 当前进程的id号,无需自己修改 |
benchmark | bool | False | 是否开启benchmark,对预测速度、显存占用等进行统计 |
save_log_path | str | “./log_output/” | 开启benchmark 时,日志结果的保存文件夹 |
show_log | bool | True | 是否显示预测中的日志信息 |
use_onnx | bool | False | 是否开启onnx预测 |
参数名称 | 类型 | 默认值 | 含义 |
---|---|---|---|
use_gpu | bool | True | 是否使用GPU进行预测 |
ir_optim | bool | True | 是否对计算图进行分析与优化,开启后可以加速预测过程 |
use_tensorrt | bool | False | 是否开启tensorrt |
min_subgraph_size | int | 15 | tensorrt中最小子图size,当子图的size大于该值时,才会尝试对该子图使用trt engine计算 |
precision | str | fp32 | 预测的精度,支持fp32 , fp16 , int8 3种输入 |
enable_mkldnn | bool | True | 是否开启mkldnn |
cpu_threads | int | 10 | 开启mkldnn时,cpu预测的线程数 |
参数名称 | 类型 | 默认值 | 含义 |
---|---|---|---|
det_algorithm | str | “DB” | 文本检测算法名称,目前支持DB , EAST , SAST , PSE , DB++ , FCE |
det_model_dir | str | xx | 检测inference模型路径 |
det_limit_side_len | int | 960 | 检测的图像边长限制 |
det_limit_type | str | “max” | 检测的边长限制类型,目前支持min 和max ,min 表示保证图像最短边不小于det_limit_side_len ,max 表示保证图像最长边不大于det_limit_side_len |
其中,DB算法相关参数如下
参数名称 | 类型 | 默认值 | 含义 |
---|---|---|---|
det_db_thresh | float | 0.3 | DB输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点 |
det_db_box_thresh | float | 0.6 | 检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域 |
det_db_unclip_ratio | float | 1.5 | Vatti clipping 算法的扩张系数,使用该方法对文字区域进行扩张 |
max_batch_size | int | 10 | 预测的batch size |
use_dilation | bool | False | 是否对分割结果进行膨胀以获取更优检测效果 |
det_db_score_mode | str | “fast” | DB的检测结果得分计算方法,支持fast 和slow ,fast 是根据polygon的外接矩形边框内的所有像素计算平均得分,slow 是根据原始polygon内的所有像素计算平均得分,计算速度相对较慢一些,但是更加准确一些。 |
EAST算法相关参数如下
参数名称 | 类型 | 默认值 | 含义 |
---|---|---|---|
det_east_score_thresh | float | 0.8 | EAST后处理中score map的阈值 |
det_east_cover_thresh | float | 0.1 | EAST后处理中文本框的平均得分阈值 |
det_east_nms_thresh | float | 0.2 | EAST后处理中nms的阈值 |
SAST算法相关参数如下
参数名称 | 类型 | 默认值 | 含义 |
---|---|---|---|
det_sast_score_thresh | float | 0.5 | SAST后处理中的得分阈值 |
det_sast_nms_thresh | float | 0.5 | SAST后处理中nms的阈值 |
det_box_type | str | quad | 是否多边形检测,弯曲文本场景(如Total-Text)设置为’poly’ |
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
的技术提升。**
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。