赞
踩
以labelme多边形标注为例,图片和标注的json文件都放在home/data/1文件夹下,图片扩展名支持jpg/png等多种类型。
格式如下,参考:PaddleOCR/ocr_datasets.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub
- " 图像文件名 json.dumps编码的图像标注信息"
- ch4_test_images/img_61.jpg [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]
格式如下,参考:PaddleOCR/angle_class.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub
- " 图像文件名 图像标注信息 "
- train/cls/train/word_001.jpg 0
- train/cls/train/word_002.jpg 180
格式如下,参考:PaddleOCR/ocr_datasets.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub
见github。
先注掉self.make_clsdata(),运行make_detdata和make_resdata生成以下结果:
1:图片和标注文件所在位置
json:将文件夹1中的json文件移动到了这里
det_data:文字检测数据集
crop:文字裁切后的图片
crop.txt:裁切图片及对应的文件,方便生成文字识别数据集
res_data:文字识别数据集
det_data文件夹:
res_data下:
crop中是所有裁剪下来的图片,自己判断下文字的方向,将其分成两类:0和180。
将self.make_clsdata()取注,将self.make_detdata()和self.make_resdata()注掉,再次运行,得到cls_data文件夹,内容如下:
最终的目录结构如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。