当前位置:   article > 正文

场景文本部分数据集_totaltext数据集

totaltext数据集


简介

在场景文本检测与识别中,往往需要大量的数据集,小白通过阅读论文,总结了比较常见的一些数据集。比如:SynthText、ICDAR系列、MSRA-TD500、COCO-Text、RCTW-17、Total-Text、CTW1500等等

一、数据集下载

二、数据集分布

1.RCTW-17

数据集特点

  1. 分辨率: 图像分辨率大小不等,小则300+,大则3000+
  2. 场景:主要是建筑、标志牌、条幅等带有文字的图像,还有一些截图、室内、证件内照片
  3. 文本属性:图像中的文本方向水平、垂直、倾斜均有,绝大多数是水平方向,弯曲方向极少数,文本大小不等,有较多的长文本

标注

  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<“文本”>

x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标,值为像素值
<识别难易程度>以0或1表示,0表示容易识别,即图像中文本清晰可见;1表示很难识别,即图像中文本较小或模糊不清楚。
<“文本”>中如果有不清楚的字符,以#表示;如果文本完全不清楚,很难识别(对应<识别难易程度>=1),则以"###"表示。

图片

2.MSRA-TD500

数据集特点:

  1. 多方向文本检测、大部分文本都在引导牌上、分辨率在1296x864到1920x1280之间
  2. 图片中 包含中英文、总共500张自然场景图片(Training 300 + Test 200)、标注以行为单位,而不是单词、每张图片都完全标注. 难以识别的有difficult标注
  3. 文本是任意定向的,文本区域是由旋转的矩形注释的,IC15中的文本长得多,因为它们是在行中注释的。

标注

  • index, defficult label, x, y, width, height, theta(弧度)
// 一般的深度学习算法,接收的矩形框都是QUAD风格的,即
//x1,y1,x2,y2,x3,y3,x4,y4,text
def rotate(angle, x, y):
    """
    基于原点的弧度旋转

    :param angle:   弧度
    :param x:       x
    :param y:       y
    :return:
    """
    rotatex = math.cos(angle) * x - math.sin(angle) * y
    rotatey = math.cos(angle) * y + math.sin(angle) * x
    return rotatex, rotatey

def xy_rorate(theta, x, y, centerx, centery):
    """
    针对中心点进行旋转

    :param theta:
    :param x:
    :param y:
    :param centerx:
    :param centery:
    :return:
    """
    r_x, r_y = rotate(theta, x - centerx, y - centery)
    return centerx+r_x, centery+r_y

def rec_rotate(x, y, width, height, theta):
    """
    传入矩形的x,y和宽度高度,弧度,转成QUAD格式
    :param x:
    :param y:
    :param width:
    :param height:
    :param theta:
    :return:
    """
    centerx = x + width / 2
    centery = y + height / 2

    x1, y1 = xy_rorate(theta, x, y, centerx, centery)
    x2, y2 = xy_rorate(theta, x+width, y, centerx, centery)
    x3, y3 = xy_rorate(theta, x, y+height, centerx, centery)
    x4, y4 = xy_rorate(theta, x+width, y+height, centerx, centery)

    return x1, y1, x2, y2, x3, y3, x4, y4
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48

3.COCO-Text

数据集特点:

  1. 包括63686幅图像(Training 43,686+ Test 20,000),173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB

4.Total-Text(弯曲文本数据集)

数据集特点:

  1. 共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300张
  2. 弯曲文本,多边形标注,词级注释。

参考:
批量处理total-text数据集格式


5.SynthText

数据集特点:

  1. 一个合成数据集,大约有80万张合成的图像组成

参考:
数据格式介绍


6.ICDAR数据集

数据集特点:
ICDAR2013(水平拉丁语数据集):

  1. 专注于场景中的水平文本,包含229张用于训练的图像和233张用于测试的图像

ICDAR2015(水平拉丁语数据集):

  1. 1000张图像用于训练,500张图像用于测试,标注为单词级别四边形 倾斜文本
  2. 均为英文文本,标注使用四边形在词级

ICDAR2017:

  1. 多语言文本检测,IC15, IC17中的文本区域也由四边形的4个顶点注释

ICDAR2019(多种语言文本数据集)


7.CTW1500数据集

数据集特点:
1.该数据集为任意文本形状的数据集Train:1000张+Test:500张,数据集大约几百兆,每张图片都有自己注释的文本,没有标记文本内容。
2. 注释文本有多少行就代表这张图片有多少个文本框,每行包含32个数字,前四个数字为该弯曲文本在整张图上的矩形框坐标值;剩下的28个值(14个点)为与左上角坐标形成的差值(图像的实例为多边形标注)

标注
在这里插入图片描述

总结

以上就是文本检测与识别的常用数据集

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/370637
推荐阅读
相关标签
  

闽ICP备14008679号