当前位置:   article > 正文

OCR入门学习_动手学ocr

动手学ocr

ocr:光学字符识别(识别文字)

      分为两个部分:文字检测+文字识别

  提取图像中的文字,并转换成文本形式,供后续NLP使用

  

  •   文字检测:dbnet 、CTPN

  dbnet:  原理是基于分割算法。对于一般分割算法流程:先通过网络输出文本分割的概率图,然后使用设定阈值将概率图转化为二值图,然后通过后处理得到检测结果(文本框坐标)。但是缺点在于阈值的选取非常关键。

                                                               

 概率图(probability map):图中每个像素点的值为该位置属于文本区域的概率

阀值图(threshold map):图中每个像素点的值为该位置的二值化阈值,大于阈值为文字区域,反之为背景。

近似二值图(approximate binary map):由概率图和阈值图通过 DB 算法计算得到(P-T),图中像素的值为 0 或 1。

CTPN:文本检测,本质上也属于物体检测,适用于从左往右书写的文本,从上往下或者弯曲的效果不是很好.

    VGG提取特征、BLSTM融入上下文信息,基于RPN完成检测

  • 文字识别:(ABINET、CRNN、NRTR、ROBUST_SCANNER、SAR、SATRN、SEG、TPS)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/650344
推荐阅读
相关标签
  

闽ICP备14008679号