赞
踩
在本教程中,您将学习如何使用EAST文本检测器在自然场景下检测文本。
本教程的主要目的是教读者利用OpenCV和EAST文本检测器来检测文本。
运行环境:
EAST文本检测器需要OpenCV3.4.2或更高版本,有需要的读者可以先安装OpenCV。
主要内容:
● 教程第一部分分析为何在自然场景下进行文本检测的挑战性是如此之高。● 最后提供 Python + OpenCV文本检测实现方式,供读者在自己的应用中使用。
为何在自然场景下进行文本检测的挑战性是如此之高
由于光照条件、图片质量以及目标非线性排列等因素的限制,自然场景下的文本检测任务难度较大
受约束的受控环境中的文本检测任务通常可以使用基于启发式的方法来完成,比如利用梯度信息或文本通常被分成段落呈现,并且字符一般都是成直线排列等信息。
但自然场景下文本检测则不同,而且更具挑战性。
由于廉价数码相机和智能手机的普及,我们需要高度关注图像拍摄时的条件。Celine Mancas-Thillou和Bernard Gosselin在其2017年发表的优秀论文《自然场景文本理解》中描述了的自然场景文本检测面对的主要挑战:
● 图像/传感器噪音 :手持式相机的传感器噪音通常要高于传统扫描仪。此外,廉价相机通常会介入原始传感器的像素以产生真实的颜色。● 处理条件未知:我们不能使用任何先验信息来为算法提供关于文本所在位置的“线索”。
OpenCV’sEAST文本检测器甚至可以识别模糊图片中的文字
EAST深度学习文本检测器
EAST文本检测器全卷积网络结构
EAST是一种基于深度学习的文本探测器,即高效、准确的场景文本检测(Efficient and Accurate Scene Text detectionpipeline)。更重要的是,深度学习模型是端对端的,因此可能绕开一般文本识别器用的计算成本高昂的子算法,比如候选对象聚合和词汇分割等。
项目结构
首先使用Tree终端命令来浏览项目结构:
在images/ 目录下已有三张样图,读者可以自己添加更多图片。
我们使用两个.py 文件:
● text_detection.py : 检测静态图像中的文本两个脚本都使用EAST模型 ( frozen_east_text_detection.pb )
注意事项
本文中介绍的实例基于OpenCV的官方C++实例,在转换为Python的过程中可能会遇见一些问题。
比如,Python中没有Point2f 和 RotatedRect函数,所以不能完全再现C++环境下的实现。
其次,NMSBoxes函数不返回Python绑定的任何值,最终导致OpenCV报错。 NMSBoxes函数可以在OpenCV3.4.2中使用,但我无法对其进行详尽的测试。
使用OpenCV实现文本检测器的构建
在开始之前,我想再次指出,您至少需要在系统上安装OpenCV 3.4.2(或OpenCV 4)才能使用OpenCV的EAST文本检测器,因此如果您还没有安装OpenCV 3.4.2或更高版本,请参阅后文的OpenCV安装指南。
接下来,安装或升级你的系统中的imutils 。
1$ pip install --upgrade imutils
此时,系统设置已经完成,打开 text_detection.py ,输入以下代码:
首先,我们在第2-6行导入所需的包和模块。注意,我们从imutils.object_detection导入NumPy,OpenCV和non_max_suppression实现。
然后我们继续解析第9-20行的五个命令行参数:
● --image:输入图像的路径。重要提示:EAST文本要求输入图像尺寸为32的倍数,因此如果您选择调整图像的宽度和高度值,请确保这两个值是32的倍数!
然后加载图像并调整大小:
第23和24行加载并复制输入图像。
第30行和第31行确定原始图像尺寸与新图像尺寸的比率(基于为--width和--height提供的命令行参数)。
然后我们调整图像大小,忽略纵横比(第34行)。
为了使用OpenCV和EAST深度学习模型执行文本检测,我们需要提取两层的输出特征映射:
我们在40-42行构建了layerNames的表:
● 第一层是我们的输出sigmoid激活,它给出了包含文本或不包含文本的区域的概率。加载OpenCV的EAST文本检测器:
我们使用cv2.dnn.readNet将神经网络加载到内存中,方法是将路径传递给EAST检测器作为第46行的参数。
然后我们通过将其转换为第50行和第51行的blob来准备我们的图像。要了解有关此步骤的更多信息,请参阅深度学习:OpenCV的blobFromImage如何工作。
要预测文本,我们可以简单地将blob设置为输入并调用net.forward(第53和54行)。这些行被抓取时间戳包围,以便我们可以在第58行打印经过的时间。
通过将layerNames作为参数提供给net.forward,我们指示OpenCV返回我们感兴趣的两个特征映射:
● 输出几何图用于导出输入图像中文本的边界框坐标我们需要逐一循环这些值:
我们首先抓取score的维度(第63行),然后初始化两个列表:
● rects:存储文本区域的边界框(x,y)坐标我们稍后将对这些区域使用non-maximasuppression。
在第68行开始循环。
第72-77行提取当前行的分数和几何数据y。
接下来,我们遍历当前所选行的每个列索引:
对于每一行,我们开始循环第80行的列。
我们需要通过忽略概率不高的区域来过滤弱文本检测(第82行和第83行)。
当图像通过网络时,EAST文本检测器自然地减少了体积大小——我们的体积实际上比输入图像小4倍,所以我们乘以4,使坐标回到原始图像。
我已经包含了如何在第91-93行提取角度数据;然而,正如我在前一节中提到的,不能像在C++中那样构造一个旋转的边界框——如果你想要处理这个任务,那么从第91行角度开始将是你的第一步。
第97-105行派生出文本区域的边框坐标。
然后我们分别更新rects和confi数据库列表(第109行和第110行)。
最后一步是将非最大值抑制应用于我们的边界框以抑制弱重叠边界框,然后显示结果文本预测:
正如我在上一节中提到的,我无法在我的OpenCV 4安装(cv2.dnn.NMSBoxes)中使用非最大值抑制,因为Python绑定没有返回值,最终导致OpenCV出错。我无法完全在OpenCV 3.4.2中进行测试,因此它可以在v3.4.2中运行。
相反,我使用了imutils包中提供的非最大值抑制实现(第114行)。结果仍然很好;但是,我无法将我的输出与NMSBoxes函数进行比较,看它们是否相同。
第117-126行循环遍历边界框,将坐标缩放到原始图像尺寸,并将输出绘制到orig图像。直到按下一个按键为止,原始图像将一直显示(129-130行)。
最后一个实验需要注意的是,我们的两个嵌套for循环用于循环第68-110行上的分数和几何体(geometry volume),这是一个很好的例子,说明你可以利用Cython极大地加快pipeline的速度。我已经用OpenCV和Python演示了Cython在快速优化“for”像素循环中的强大功能。
OpenCV文本检测器结果
在终端可以执行一下命令(注意两个命令行参数):
结果应该如下图所示:
文本检测器成功识别出篮球巨星勒布朗·詹姆斯球衣上的文字
詹姆斯身上有三个文本区域。
现在让我们尝试检测业务标志的文本:
使用EAST文本检测器很容易识别出路边洗车店的招牌文字
最后,我们将尝试一个路标:
基于Python和OpenCV的场景文本检测器和EAST文本检测器成功检测出西班牙语的停车指示路牌
该场景中包含一个西班牙的停车标志。“ALTO”可以准确的被OpenCV和EAST识别出来。
如你所知,EAST非常精确,且相对较快,平均每张图片耗时约0.14秒。
OpenCV在视频中进行文本检测
我们可以基于上述工作,进一步使用OpenCV在视频中进行文本检测。
开启text_detection_video.py,然后插入如下代码:
首先,我们导入一些包。我们将使用VideoStream访问网络摄像头并用FPS来为这个脚本测试每秒帧数。其他内容与前一节相同。
为方便起见,定义一个新函数来为我们的预测函数进行解码 - 它将被重用于每个帧并使循环更清晰:
在第11行,我们定义decode_prediction函数。该函数用于提取:
● 文本区域的边界框坐标;这个专用函数将使代码更易于阅读和管理。
让我们来解析命令行参数:
69-80行代码中命令行参数解析:
● --east:EAST场景文本检测器模型文件路径。与上一节中仅使用图像的脚本(就命令行参数而言)的不同之处在于,用视频替换了图像参数。
接下里,我们将进行重要的初始化工作:
第84-86行上的高度、宽度和比率初始化将允许我们稍后适当地缩放边界框。
我们定义了输出层的名称,并在第91-97行加载了预先训练好的EAST文本检测器。
下面的代码设置了我们的视频流和每秒帧数计数器:
我们的视频流设置为:
● 一个摄像头(100-103行)我们在第110行初始化每秒帧计数器,并开始循环传入帧:
我们从113行开始在视频/摄像头框架上进行循环。
我们的框架调整了大小,保持了纵横比(第124行)。从129-132行中获取维度并计算比例。然后我们再次调整帧的大小(必须是32的倍数),这一次忽略了长宽比,因为我们已经存储了用于安全维护(safe keeping)的比率(第135行)。
推理和绘制文本区域边框发生在以下几行:
在这一代码块中:
创建一个blob并通过网络传递文本区域(第139-142行);
解码预测并应用NMS(第146行和第147行)。使用之前在这个脚本中定义的decode_forecasts函数和imutils non_max_suppression函数。
循环包围框并在框架上绘制它们(150-159行)。这涉及到按前面收集的比率缩放方框。
而后我们将关闭框架处理循环以及脚本本身:
我们在循环的每次迭代中更新fps计数器(第162行),以便当我们跳出循环时可以计算和显示计时(第173-175行)。
我们在第165行显示了EAST文本检测的输出,并处理按键(第166-170行)。如果“q”键代表“退出”,并被按下,我们将跳出循环,继续清理和释放指针。
视频文本检测结果
要使用OpenCV对视频进行文本检测,请务必点击本文底部“下载内容”链接获取相应资源。
而后,打开终端并执行以下命令(将会开启摄像头,因为通过命令行参数不提供- -video):
1$ python text_detection_video.py --east frozen_east_text_detection.pb
2[INFO] loading EAST text detector...
3[INFO] starting video stream...
4[INFO] elasped time: 59.76
5[INFO] approx. FPS: 8.85
代码下载及原文链接:
https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-text-detector/
原文发布时间为:2018-08-23
本文作者:Adrian Rosebrock
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
原文链接:10分钟上手,OpenCV自然场景文本检测(Python代码+实现)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。