赞
踩
为方便大家快速上手OCR实战,本次实战项目采用开源框架PaddleOCR,大家可以参考官网文档快速了解基本使用,项目数据为2022 DCIC赛题中提供的验证码数据集,大家可以参考其他开源项目进行学习,接下来本人将介绍使用基于CRNN网络的验证码识别项目及具体训练流程。
学习参考:
本项目以DCID2022赛题为背景,以已标记字符信息的实例字符验证码图像数据为训练样本,参赛选手需基于提供的样本构建模型,对测试集中的字符验证码图像进行识别,提取有效的字符信息。训练数据集不局限于提供的数据,可以加入公开的数据集。
提供标注信息训练数据集15000张,每张训练数据由一个4位文本字符验证码图像组成,字符随机产生,标注集对当前图像中的文本字符进行内容标注;测试数据集含25000张验证码图像。
数据参考 :基于文本字符的交易验证码识别
本项目提供训练数据集文件train_imgs.zip,其中文件名称对应图片文本字符标签;测试数据集文件test_imgs.zip,包含待识别的图像文件。
文件名称 | 说明 |
---|---|
train_imgs.zip | 训练集图片,15000张验证码图片 |
test_imgs.zip | 测试集图片,25000张待识别验证码图片 |
submit_example.csv | 最终数据格式提交样例 |
本次项目采用的评价方式为准确率(accuracy),根据测试图像数据预测的准确率进行从高到低的排序,其指标为完全识别出完整的验证码文本信息。 同等准确率的以提交结果的时间排名,先提交者胜出。
�(准确率)=所有待检测的目标数量/检测正确的目标数量P(准确率)=所有待检测的目标数量/检测正确的目标数量
数据集链接
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。