赞
踩
这次有个OCR的需求,对比了一下easyocr和paddleocr的识别效果,最终选择了paddleocr。
这里记录一下使用过程和遇到的问题。
使用easyocr前,需要先安装torch和torchvision
如果使用GPU的话,还需要先安装CUDA,可常见这位大佬的文章,写得很详细:https://blog.csdn.net/AI_dataloads/article/details/133043869
CUDA和pytorch安装好后,再pip install easyocr
import easyocr
image = r"D:\tmp\test\1.PNG"
reader = easyocr.Reader(['ch_sim', 'en'])
result = reader.readtext(image, detail=0)
print(result)
ImportError: cannot import name 'model_urls' from 'torchvision.models.vgg'
,那就是easyocr和torchvision的版本差异问题(我当时使用的版本:easyocr=1.7.1,torch=2.2.1,torchvision=0.17.1)can't open/read file: check file path/integrity....AttributeError: 'NoneType' object has no attribute 'shape'
那就是图片路径出现中文了,不要有中文路径图片越大,OCR耗时越长,如果你只需要识别图片特定部分,可以先把图片裁剪了,减少识别区域,加快OCR识别速度(我当时的需求,只需要识别图片上半部分,于是就将上半张图片另存为新图。识别半张图比完整图快2.6倍)
将上半张图另存为新图的代码:
def split_image_vertically_get_upper_part(image_path) -> str:
# 将图片分为上下2半,将上半张图片保存为新文件,并返回路径
img = Image.open(image_path)
width, height = img.size
split_point_y = height // 2
top_img = img.crop((0, 0, width, split_point_y))
# 保存上半部分图片 保存到同级目录
dir_path, filename_with_suffix = os.path.split(image_path)
filename, suffix = os.path.splitext(filename_with_suffix)
new_path = os.path.join(dir_path, f'{filename}_top{suffix}')
top_img.save(new_path)
return new_path
英文图片识别:
中文图片识别:
目前看起来一切正常,挺满意的。但是,一旦图片变大一点,字体变小一点,中文识别就有问题了(大图小字英文图片 我没试过)。下图是这次要识别的图片,图大字小,为了数据脱敏,只截取了几个片段:
没办法,只能换一个OCR库,于是转向了paddleocr
使用paddleocr,需要先安装paddlepaddle:
如果使用GPU 也需要先安装CUDA(安装方式见上文),然后pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple
如果使用CPU:pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
再pip install "paddleocr>=2.0.1"
我目前使用的版本:paddleocr=2.7.0.3, paddlepaddle-gpu=2.6.0。貌似这俩对CUDA的版本要求是<=11,而我在上面体验easyocr到时候已经安装了最新版的12.2,真是造化弄人啊。我不想卸载CUDA重新安装,太麻烦了,先直接运行看看能不能跑
结果一堆报错,说缺少动态连接文件,比如Could not locate cudnn_cnn_infer64_8.dll. Please make sure it is in your library path!
这种版本不匹配的情况,通常只能推倒重来,但我使用了另一种偏方:
我用everything搜索缺的那个动态链接库cudnn_cnn_infer64_8.dll,结果在上面easyocr的环境中找到了 笑哭.gif。于是它报缺什么dll,我就从anaconda\envs\torchocr2\Lib\site-packages\torch\lib
easyocr的虚拟环境中找到复制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs
中去
最后还报了却一个cublas64_11.dll
但是我只在CUDA的安装目录C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\bin
中找到了cublas64_12.dll
,但是版本不匹配呀,怎么搞?我又用了个偏方把cublas64_12.dll
复制到anaconda\envs\paddle_env\Lib\site-packages\paddle\libs
把12改成11,骗一下它,看看行不行,结果还真骗过去了 再次笑哭.gif
from paddleocr import PaddleOCR
image2 = r"D:\tmp\test\1.PNG"
ocr = PaddleOCR(use_angle_cls=False, lang="ch")
result = ocr.ocr(image2, cls=False)
content_list=[]
for idx in range(len(result)):
res = result[idx]
for line in res:
content_list.append(line[-1][0])
content=''.join(content_list)
print(content)
很好,超出预期,上面easyocr未识别出来的,paddleocr全部识别出来了,中文OCR还得是国产强。
我那大图小字的图片不好脱敏,就不贴图了。
唯一的缺点就是 i j l 0 o 这些识别可能不准确。但是情有可原,已经非常棒了。
2个OCR库该有的功能都有,比如识别出的文字坐标, 准确率 等.本文只是基于我的需求,测了文字提取,更多其他功能,各位自行去查阅官方文档
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。