Python OCR库：自动化验证码识别神器！_pyocr

作者：小蓝xlanll | 2024-05-04 00:15:56

踩

pyocr

在接口自动化工作中，经常需要处理文字识别的任务，而OCR（Optical Character Recognition，光学字符识别）库能够帮助我们将图像中的文字提取出来。Python中有几个常用的OCR库，包括pyocr、pytesseract和python- tesseract、EasyOCR。

本文将对它们进行比较，并提供一些示例代码来演示它们在实际接口自动化工作中的应用。

技术交流

技术要学会分享、交流，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

本文文章由粉丝的分享、推荐，资料干货、资料分享、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、添加微信号：pythoner666，备注：来自CSDN + 加群
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：加群

1、pyocr

PyOCR是一个Python库，提供了对多个OCR引擎的封装。它可以方便地在Python中使用不同的OCR引擎进行文本识别。

PyOCR支持以下OCR引擎：

Tesseract：Tesseract是一个开源的OCR引擎，由Google开发。它支持多种语言，并且在OCR准确性方面表现良好。
Cuneiform：Cuneiform是一个开源的OCR引擎，支持多种语言和字体。
GOCR：GOCR是一个开源的OCR引擎，主要用于识别简单的文本和数字。

适用场景：

文字识别和提取：用于将印刷体文字从图像中提取出来，以便进行文本处理、搜索和分析。
文档扫描和转换：用于将扫描的纸质文档转换为可编辑的电子文档。
自动化数据录入：用于将图像中的数据转换为计算机可读的格式，以便进行数据处理和分析。
图像标注和分类：用于从图像中提取文本信息，以便对图像进行标注和分类。

使用PyOCR进行文本识别的步骤如下：

安装PyOCR库和相应的OCR引擎:pip install pyocr
导入PyOCR库和所需的OCR引擎。
初始化OCR引擎。
打开图像文件或者将图像转换为PIL图像对象。
使用OCR引擎的image_to_string方法进行文本识别。

示例：以下是一个使用Tesseract库进行文字识别的示例：

import pyocr
import pyocr.builders
from PIL import Image

# 初始化OCR引擎
tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("No OCR tool found")
    exit(1)
ocr_tool = tools[0]

# 打开图像文件
image = Image.open('image.jpg')

# 使用OCR引擎进行文本识别
text = ocr_tool.image_to_string(
    image,
    lang='eng',
    builder=pyocr.builders.TextBuilder()
)

# 打印识别结果
print(text)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

在这个示例中，首先使用pyocr.get_available_tools()获取可用的OCR引擎列表，然后选择第一个可用的引擎进行初始化。接着使用PIL库打开图像文件，然后使用OCR引擎的image_to_string方法进行文本识别，同时指定识别语言和文本构建器。最后打印识别结果。

2、pytesseract

pytesseract是一个Python库，它提供了对Tesseract OCR引擎的封装。Tesseract是一个开源的OCR引擎，由Google开发。pytesseract可以方便地在Python中使用Tesseract进行文本识别。

pytesseract具有以下特点：

支持多种语言：pytesseract可以识别多种语言的文字，包括英语、中文、日语等。
支持多种图像格式：pytesseract可以处理多种常见的图像格式，如JPEG、PNG、TIFF等。
简单易用：pytesseract提供了一个简单的API，只需几行代码即可完成文本识别。

使用pytesseract进行文本识别的步骤如下：

安装pytesseract库和Tesseract OCR引擎。
导入pytesseract库。
打开图像文件或者将图像转换为PIL图像对象。
使用pytesseract库的image_to_string方法进行文本识别。

以下是一个使用pytesseract进行文本识别的示例：

import pytesseract
from PIL import Image

# 打开图像文件
image = Image.open('image.jpg')

# 使用pytesseract进行文本识别
text = pytesseract.image_to_string(image)

# 打印识别结果
print(text)
1
2
3
4
5
6
7
8
9
10
11

在这个示例中，首先使用PIL库打开图像文件，然后使用pytesseract库的image_to_string方法将图像中的文字识别为文本，最后打印识别结果。

需要注意的是，使用pytesseract进行文本识别前，需要确保已经正确安装了Tesseract OCR引擎，并将其配置为系统环境变量之一。这样pytesseract才能找到并使用Tesseract引擎进行识别。

3、python-tesseract

python-tesseract是一个Python库，它提供了对Tesseract OCR引擎的封装。Tesseract是一个开源的OCR引擎，由Google开发。python-tesseract库可以方便地在Python中使用Tesseract进行文本识别。

python-tesseract具有以下特点：

支持多种语言：python-tesseract可以识别多种语言的文字，包括英语、中文、日语等。
支持多种图像格式：python-tesseract可以处理多种常见的图像格式，如JPEG、PNG、TIFF等。
简单易用：python-tesseract提供了一个简单的API，只需几行代码即可完成文本识别。

使用python-tesseract进行文本识别的步骤如下：

安装python-tesseract库和Tesseract OCR引擎。
导入python-tesseract库。
打开图像文件或者将图像转换为PIL图像对象。
使用python-tesseract库的image_to_string方法进行文本识别。

以下是一个使用python-tesseract进行文本识别的示例：

import pytesseract
from PIL import Image

# 打开图像文件
image = Image.open('image.jpg')

# 使用python-tesseract进行文本识别
text = pytesseract.image_to_string(image)

# 打印识别结果
print(text)
1
2
3
4
5
6
7
8
9
10
11

在这个示例中，首先使用PIL库打开图像文件，然后使用python-tesseract库的image_to_string方法将图像中的文字识别为文本，最后打印识别结果。

需要注意的是，使用python-tesseract进行文本识别前，需要确保已经正确安装了Tesseract OCR引擎，并将其配置为系统环境变量之一。这样python-tesseract才能找到并使用Tesseract引擎进行识别。

以下是一个更为复杂的例子，展示了如何使用python-tesseract进行文本识别，并对识别结果进行一些后处理：

import pytesseract
from PIL import Image
import re

# 打开图像文件
image = Image.open('image.jpg')

# 使用python-tesseract进行文本识别
text = pytesseract.image_to_string(image)

# 去除识别结果中的非法字符
cleaned_text = re.sub(r'[^a-zA-Z0-9\s]', '', text)

# 将识别结果按行分割成列表
lines = cleaned_text.split('\n')

# 去除空行
lines = [line.strip() for line in lines if line.strip()]

# 打印识别结果
for line in lines:
    print(line)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

在这个例子中，我们首先使用PIL库打开图像文件，然后使用python-tesseract库的image_to_string方法将图像中的文字识别为文本。接下来，我们使用正则表达式去除识别结果中的非法字符，只保留字母、数字和空格。然后，我们将识别结果按行分割成列表，并去除空行。最后，我们逐行打印识别结果。

这个例子展示了如何对识别结果进行一些后处理操作，以获得更干净和可读性更高的文本。根据实际需求，你可以根据需要进行更多的后处理操作，如去除特定的字符、提取关键信息等。

4、EasyOCR

EasyOCR是一个功能强大且开源、易于使用的OCR库，适用于各种文字识别任务，包括文档扫描、图像处理、自然语言处理等。它可以帮助开发者快速实现文字识别功能，并应用于各种应用领域。与其他OCR库相比，EasyOCR具有以下特点：

多语言支持：EasyOCR支持超过80种语言的文字识别，包括中文、英文、日文、韩文等。它可以处理多种语言混合的文本，适用于全球范围的应用。
高精度识别：EasyOCR使用了深度学习模型和先进的OCR技术，能够提供高精度的文字识别结果。它在多个公开数据集上进行了训练和测试，具有较高的准确率和鲁棒性。
简单易用：EasyOCR提供了一个简单的API，使得文字识别变得容易。只需几行代码，即可将图像中的文字转换为可用的文本。
跨平台支持：EasyOCR可以在多个平台上运行，包括Windows、Linux和Mac OS。它支持Python和命令行界面，可以与其他编程语言和工具集成。

使用EasyOCR进行文字识别的步骤如下：

安装EasyOCR库：可以使用pip命令安装EasyOCR库，例如pip install easyocr。
导入EasyOCR库：在Python代码中导入EasyOCR库，例如import easyocr。
创建OCR对象：创建一个OCR对象，例如reader = easyocr.Reader(['en', 'zh'])，指定要识别的语言。
识别文字：使用OCR对象的readtext方法对图像中的文字进行识别，例如result = reader.readtext('image.jpg')。
处理识别结果：根据需要处理识别结果，例如提取文字内容、位置和置信度等。

以下是一个使用EasyOCR进行文字识别的简单示例：

import easyocr

# 创建OCR对象
reader = easyocr.Reader(['en', 'zh'])

# 识别文字
result = reader.readtext('image.jpg')

# 处理识别结果
for (text, bbox, confidence) in result:
    print(f'Text: {text}, Bbox: {bbox}, Confidence: {confidence}')
1
2
3
4
5
6
7
8
9
10
11

在这个示例中，我们首先创建了一个OCR对象，指定了要识别的语言为英文和中文。然后，我们使用OCR对象的readtext方法对图像文件进行文字识别，返回一个包含识别结果的列表。最后，我们遍历识别结果，打印每个文字的内容、位置和置信度。

5、小结

本文介绍了Python中几个常用的OCR库，并提供了相应的代码示例。这些库都可以帮助我们在接口自动化工作中进行文字识别，从而实现更多的自动化功能和任务。根据实际需求，您可以选择适合自己的OCR库，并结合其他工具和技术来完成更复杂的接口自动化工作。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/532255