赞
踩
本文是一个端到端的场景文本识别方案,但其实还是stage-wise的方案。整个framework分为两个stage。
经过百万合成图片的训练,B-CEDNet在ICDAR-03和ICDAR-13上recall=0.86,precision=0.88,F-score=0.87.整个推断过程小于1ms。网络模型B-CEDNet只有1.01MB,Bi-RNN只有3.23MB,是现有方法中最小最快的。
ps:从abstract上来看,这个工作整体上并没有太多新的东西。binary的网络是之前NIPS 2016提出来的一种模型压缩方案,所以最终结果中模型才能达到那么小。而获得的“跑分”成绩,可以从3个方面考虑,1)是训练数据量大。2)是通常模型的压缩是具有一定正则化作用的,能提高网络泛化能力,往往会比原网络效果更好。3)测试数据集感觉还是比较小。
本文贡献
通常场景文本识别有两类方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。