当前位置:   article > 正文

基于单元格的图片分割方法——表格内容识别_表格图片ocr识别之表格切分

表格图片ocr识别之表格切分
  • (一)单元格图片分割

  • 由于拍摄角度等 问 题,采集的图像 一 般 都 存 在一定的斜 视 畸 变,定值单也不例外。另 外,如 果打印纸张位置 不 正 也 会 产生变 形。因此,在识 别 图片之前需要将表格从单据中提取出来。这里采用边缘检测的方法来 获 取表格 轮廓 的位置,再通过透视转换对变形的单据图片进行矫正。

  • (1)边缘检测:图像的边缘检测,一般采用算法提取灰度跃变点,这些点连起来的线,就是图像中的灰度跃变线。再通过算法获取图像四周最外侧的跃变线,就是整个图像的最外侧边缘。根据定值单的内容绝大部分都 在 表格内 的特 性,判断 这些边缘轮廓是否是矩形轮廓,并 获取 最大矩 形轮 廓的4个顶点,用来给后续的透视变换做参数。

  • (2)透视 变 换:透视变换是三维空间上的非线性变换,直观表现 就 是在 视觉上产生 或是消除 了距离感。通过边缘检测获得的最大矩形轮廓的4个顶点进行错切变换,获取较为标准的表格。

  • (3)表格交点提取:通过边缘检测和透视变换获取到的表格图形并不是完全标准的图形,它还是会受到纸张弧度的影响,同时定值单文字密度较大,所以再切割图片时不能用模板的绝对坐标,需根据要识别的图片去重新获取模板相对应的点来切割。这里使用表格交点来匹配模板的点坐标。其主要原理就是先灰度化和二值化去除干扰,再用霍夫线变换探测出图像中的所有横线和纵线,以此提取所有表格的交点。

  • 霍夫变换是检测图形中直线的一种有效方法,在图像分析、物体轮廓提取方面应用广泛,抗噪性好。

  • 表格经过霍夫线变换,获取表格交点的提取效果如图所示。

在这里插入图片描述

  • (二)字库训练
    • 字库是OCR识别的基础,但Tesseract自带的字库并不能满足定值单的识别要求,所以针对单据定制的字库是必须的,在这采用增量训练的方法完善字库。
  • 字库增量训练调用工具JtessboxEdutor进行,训练需要大量的样本作为支撑,样本数量越大,字库识别效果越好。某省电网继电定值保护中的实际应用中,训练字库最终达到了37809字。
  • (三)结果关联矫正
  • 在OCR识别字库中,由于汉字字形、偏旁以及轮廓存在相似性,导致这些相似的汉字难以区分,降低正确识别率。但考虑到继电保护定值单的专业性,常用汉字总数不多,可对其进行专门的字库训练,大大降低误识率,但这仍不能消除识别错误的情况。为此,针对电力定值项各元素的出现位置和赋值都会具有一定的规律,提出了基于上下文的词意与关联性来消除字形识别过程中出现的错误来提高识别率,如下表所示。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/931676
推荐阅读
相关标签
  

闽ICP备14008679号