当前位置:   article > 正文

paddleocr - 数据集制作_paddleocr数据集格式

paddleocr数据集格式

以labelme多边形标注为例,图片和标注的json文件都放在home/data/1文件夹下,图片扩展名支持jpg/png等多种类型。

det数据集准备

格式如下,参考:PaddleOCR/ocr_datasets.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub

  1. " 图像文件名 json.dumps编码的图像标注信息"
  2. ch4_test_images/img_61.jpg [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]

 cls数据集准备

格式如下,参考:PaddleOCR/angle_class.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub

  1. " 图像文件名 图像标注信息 "
  2. train/cls/train/word_001.jpg 0
  3. train/cls/train/word_002.jpg 180

 res数据集准备

格式如下,参考:PaddleOCR/ocr_datasets.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub

代码

见github。

结果文件

先注掉self.make_clsdata(),运行make_detdata和make_resdata生成以下结果:

1:图片和标注文件所在位置

json:将文件夹1中的json文件移动到了这里

det_data:文字检测数据集

crop:文字裁切后的图片

crop.txt:裁切图片及对应的文件,方便生成文字识别数据集

res_data:文字识别数据集

det_data文件夹:

 res_data下:

crop中是所有裁剪下来的图片,自己判断下文字的方向,将其分成两类:0和180。

将self.make_clsdata()取注,将self.make_detdata()和self.make_resdata()注掉,再次运行,得到cls_data文件夹,内容如下:

最终的目录结构如下:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/813896
推荐阅读
相关标签
  

闽ICP备14008679号