赞
踩
ocr:光学字符识别(识别文字)
分为两个部分:文字检测+文字识别
提取图像中的文字,并转换成文本形式,供后续NLP使用
dbnet: 原理是基于分割算法。对于一般分割算法流程:先通过网络输出文本分割的概率图,然后使用设定阈值将概率图转化为二值图,然后通过后处理得到检测结果(文本框坐标)。但是缺点在于阈值的选取非常关键。
概率图(probability map):图中每个像素点的值为该位置属于文本区域的概率
阀值图(threshold map):图中每个像素点的值为该位置的二值化阈值,大于阈值为文字区域,反之为背景。
近似二值图(approximate binary map):由概率图和阈值图通过 DB 算法计算得到(P-T),图中像素的值为 0 或 1。
CTPN:文本检测,本质上也属于物体检测,适用于从左往右书写的文本,从上往下或者弯曲的效果不是很好.
VGG提取特征、BLSTM融入上下文信息,基于RPN完成检测
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。