paddleocr - 数据集制作_paddleocr数据集格式

作者：正经夜光杯 | 2024-07-12 11:27:07

踩

paddleocr数据集格式

以labelme多边形标注为例，图片和标注的json文件都放在home/data/1文件夹下，图片扩展名支持jpg/png等多种类型。

det数据集准备

格式如下，参考：PaddleOCR/ocr_datasets.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub


" 图像文件名                    json.dumps编码的图像标注信息"
ch4_test_images/img_61.jpg    [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]]}, {...}]

cls数据集准备

格式如下，参考：PaddleOCR/angle_class.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub


" 图像文件名                 图像标注信息 "
train/cls/train/word_001.jpg   0
train/cls/train/word_002.jpg   180

res数据集准备

格式如下，参考：PaddleOCR/ocr_datasets.md at release/2.6 · PaddlePaddle/PaddleOCR · GitHub

代码

见github。

结果文件

先注掉self.make_clsdata()，运行make_detdata和make_resdata生成以下结果：

1：图片和标注文件所在位置

json：将文件夹1中的json文件移动到了这里

det_data：文字检测数据集

crop：文字裁切后的图片

crop.txt：裁切图片及对应的文件，方便生成文字识别数据集

res_data：文字识别数据集

det_data文件夹：

res_data下：

crop中是所有裁剪下来的图片，自己判断下文字的方向，将其分成两类：0和180。

将self.make_clsdata()取注，将self.make_detdata()和self.make_resdata()注掉，再次运行，得到cls_data文件夹，内容如下：

最终的目录结构如下：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/正经夜光杯/article/detail/813896