图像处理及深度学习开源数据集大全（四万字呕心沥血整理）

作者：菜鸟追梦旅行 | 2024-02-15 15:40:23

踩

开源数据集

13大类 150个图像处理和深度学习开源数据集

1. 目标检测（detection）
2. 人脸（face）
3. 文本识别（textg recongition）
4. 图像分类（image classification）
5. 缺陷检测（defect detection）
6. 医学影像（medical image）
7. 图像分割（image segmentation）
8. 图像去雾（images defogging）
9. 关键点检测（key point detection）
10. 动作识别（action recognition）
11. 姿态估计（pose estimation）
12. 自动驾驶（automatic drive）
13. RGB-T

本文整理了150 余个深度学习和图像处理领域的开源数据集，包括：目标检测、人脸识别、文本识别、图像分类、缺陷检测、医学影像、图像分割、图像去雾、关键点检测、动作识别、姿态估计、自动驾驶、RGBT共13个方向。

1. 目标检测（detection）

T-LESS数据集
类型：目标检测
数量：39000
数据集下载地址：http://cmp.felk.cvut.cz/t-less/
说明：
T-LESS 是被用于无纹理对象检测和 6D 姿态估计的 RGB-D 数据集，其被用于无纹理刚体对象 6D 姿态的估计。
这套数据集拥有 30 个不同行业的对象，由于没有明显的纹理、可辨别的颜色和反射特性，因此物体在形状和尺寸上表现出对称性和相似性。
该数据集还包括利用三个同步传感器捕获的训练图像，数据源包括结构光、RGB-D 传感器和高分辨率相机，每个传感器有大约 39k 的训练图像以及 10k 的测试图像。
H²O 行人交互检测数据集
类型：目标检测
数量：10300
数据集下载地址：https://kalisteo.cea.fr/wp-content/uploads/2021/12/README_H2O.html
说明：
H²O由V-COCO数据集中的10301张图像组成，其中添加了3635张图像，这些图像主要包含人与人之间的互动。所有的H²O图像都用一种新的动词分类法进行了注释，包括人与物和人与人之间的互动。该分类法由51个动词组成，分为5类。
SpotGarbage垃圾识别数据集
类型：目标检测
数量：2560
数据集下载地址：https://github.com/spotgarbage/spotgarbage-GINI
说明：
图像中的垃圾（GINI）数据集是SpotGarbage引入的一个数据集，包含2561张图像，956张图像包含垃圾，其余的是在各种视觉属性方面与垃圾非常相似的非垃圾图像。
NAO自然界对抗样本数据集
类型：目标检测
数量：7934
数据集下载地址：https://arxiv.org/pdf/2111.04204v1.pdf
说明：
NAO包含7934张图像和9943个对象，这些图像未经修改，代表了真实世界的场景，但会导致最先进的检测模型以高置信度错误分类。与标准MSCOCO验证集相比，在NAO上评估时，EfficientDet-D7的平均精度（mAP）下降了74.5%。
Labelme 图像数据集
类型：目标检测
数量：1000
数据集下载地址：https://www.cvmart.net/dataSets/labelme2.csail.mit.edu
说明：
Labelme Dataset 是用于目标识别的图像数据集，涵盖 1000 多个完全注释和 2000 个部分注释的图像，其中部分注释图像可以被用于训练标记算法，测试集拥有来自于世界不同地方拍摄的图像，这可以保证图片在续联和测试之间会有较大的差异。
印度车辆数据集
类型：目标检测
数量：
数据集下载地址：https://www.kaggle.com/datasets/dataclusterlabs/indian-vehicle-dataset
说明：
该数据集包括小众印度车辆的图像，如Autorikshaw、Tempo、卡车等。该数据集由用于分类和目标检测的小众印度车辆图像组成。据观察，这些小众车辆（如autorickshaw、tempo、trucks等）上几乎没有可用的数据集。这些图像是在白天、晚上和晚上的不同天气条件下拍摄的。该数据集具有各种各样的照明、距离、视点等变化。该数据集代表了一组非常具有挑战性的利基类车辆图像。该数据集可用于驾驶员辅助系统、自动驾驶等的图像识别和目标检测。
Seeing 3D chairs椅子检测模型
类型：目标检测
数量：1000
数据集下载地址：https://www.di.ens.fr/willow/research/seeing3Dchairs/
说明：
椅子数据集包含大约1000个不同三维椅子模型的渲染图像。
SUN09场景理解数据集
类型：目标检测
数量：12000
数据集下载地址：http://people.csail.mit.edu/myungjin/HContext.html
说明：
SUN09数据集包含12000个带注释的图像，其中包含200多个对象类别。它由自然、室内和室外图像组成。每个图像平均包含7个不同的注释对象，每个对象的平均占用率为图像大小的5%。对象类别的频率遵循幂律分布。发布者使用 397 个采样良好的类别进行场景识别，并以此搭配最先进的算法建立新的性能界限。
Unsplash图片检索数据集
类型：目标检测
数量：
数据集下载地址：https://unsplash.com/data
说明：
使用迄今为止公开共享的全球最大的开放检索信息数据集。是由250000多名摄影师和数以千计的应用程序、用途和上下文的数十亿次搜索创建的，包含了数十亿次照片搜索的信息和对应的照片信息。由于Unsplash数据集中包含广泛的意图和语义，它为研究和学习提供了新的机会。
HICO-DET人物交互检测数据集
类型：目标检测
数量：47776
数据集下载地址：https://soda-2d.github.io/download.html
说明：
HICO-DET是一个用于检测图像中人-物交互（HOI）的数据集。它包含47776幅图像（列车组38118幅，测试组9658幅），600个HOI类别，由80个宾语类别和117个动词类别构成。HICO-DET提供了超过150k个带注释的人类对象对。V-COCO提供了10346张图像（2533张用于培训，2867张用于验证，4946张用于测试）和16199人的实例。
上海科技大学人群统计数据集
类型：目标检测
数量：1198
数据集下载地址：https://github.com/desenzhou/ShanghaiTechDataset
说明：
上海科技数据集是一个大规模的人群统计数据集。它由1198张带注释的群组图像组成。
数据集分为两部分，A部分包含482张图像，B部分包含716张图像。A部分分为训练和测试子集，分别由300和182张图像组成。B部分分为400和316张图像组成的序列和测试子集。群组图像中的每个人都有一个靠近头部中心的点进行注释。总的来说，该数据集由33065名带注释的人组成。A部分的图像是从互联网上收集的，而B部分的图像是在上海繁忙的街道上收集的。
DOTA航拍图像数据集
类型：目标检测
数量：1793658
数据集下载地址：https://captain-whu.github.io/DOTA/dataset.html
说明：
DOTA是用于航空图像中目标检测的大型数据集。它可以用于开发和评估航空图像中的目标探测器。这些图像是从不同的传感器和平台收集的。每个图像的大小在800×800到20000×20000像素之间，包含显示各种比例、方向和形状的对象。DOTA图像中的实例由航空图像解释专家通过任意（8 d.o.f.）四边形进行注释。
DOTA-v1.0包含15个常见类别、2806个图像和188282个实例。DOTA-v1.0中训练集、验证集和测试集的比例分别为1/2、1/6和1/3。
DOTA-v2.0收集更多谷歌地球、GF-2卫星和航空图像。DOTA-v2.0中有18个常见类别、11268个图像和1793658个实例。
生活垃圾数据集
类型：目标检测
数量：9000
数据集下载地址：https://www.kaggle.com/datasets/dataclusterlabs/domestic-trash-garbage-dataset
说明：
该数据集是一组极具挑战性的原始垃圾/垃圾图像，共有9000多张，这些图像来自2000多个城市和农村地区。
图像是在各种照明条件、天气、室内和室外条件下拍摄的。该数据集可用于制作垃圾/垃圾检测模型、环保替代建议、碳足迹生成等。
火焰和烟雾图像数据集
类型：目标检测
数量：7000
数据集下载地址：https://www.kaggle.com/datasets/dataclusterlabs/fire-and-smoke-dataset
说明：
该数据集由早期火灾和烟雾的图像数据集组成。数据集由在真实场景中使用手机拍摄的早期火灾和烟雾图像组成。大约有7000张图像数据。图像是在各种照明条件（室内和室外场景）、天气等条件下拍摄的。该数据集非常适合早期火灾和烟雾探测。
数据集可用于火灾和烟雾识别、检测、早期火灾和烟雾、异常检测等。数据集还包括典型的家庭场景，如垃圾焚烧、纸塑焚烧、田间作物焚烧、家庭烹饪等。
全球小麦检测数据集
类型：目标检测
数量：4700
数据集下载地址：https://www.kaggle.com/c/global-wheat-detection/data
说明：
检测小麦穗是一项重要任务，可以估计相关性状，包括穗种群密度和穗特征，如卫生状况、大小、成熟阶段和芒的存在。
本数据集包含 4,700 张高分辨率 RGB 图像和 190,000 个标记的小麦头，这些小麦头采集自世界各地不同生长阶段的不同基因型的多个国家。
坑洼检测数据集
类型：目标检测
数量：700
数据集下载地址：https://www.kaggle.com/datasets/chitholian/annotated-potholes-dataset
说明：
本数据集汇总了700个在坑洼处带有3K +注释的图像，用于从道路图像中检测坑洼，检测道路地形和坑洼。
Linkopings交通标志数据集
类型：目标检测
数量：20000
数据集下载地址：http://www.cvl.isy.liu.se/research/datasets/traffic-signs-dataset/
说明：
通过记录超过 350 公里的瑞典高速公路和城市道路的序列，创建了一个数据集。
一个 1.3 兆像素的彩色摄像机，一个点灰色变色龙，被放置在一辆汽车的仪表板上，从前窗向外看。摄像头略微指向右侧，以便尽可能多地覆盖相关标志。该镜头的焦距为 6.5 毫米，视野约为 41 度。高速公路上的典型速度标志大约为 90 cm 宽，如果要在大约 30 m 的距离处检测到它们，则对应于大约 50 像素的大小。总共记录了超过 20 000 帧，其中每五帧被手动标记。每个标志的标签包含标志类型（人行横道、指定车道右侧、禁止站立或停车、优先道路、让路、50 公里/小时或 30 公里/小时）、能见度状态（遮挡、模糊或可见）和道路状态（是否标志是在正在行驶的道路上或在小路上）。
防护装备-头盔和背心检测
类型：目标检测
数量：
数据集下载地址：https://github.com/ciber-lab/pictor-ppe
说明：
包含 774 个人群图像和 698 个网络挖掘图像。人群和网络挖掘的图像分别包含 2,496 和 2,230 个工人实例。
水下垃圾检测数据集
类型：目标检测
数量：5700
数据集下载地址：https://conservancy.umn.edu/handle/11299/214366
说明：
该数据来自 J-EDI 海洋垃圾数据集。构成该数据集的视频在质量、深度、场景中的对象和使用的相机方面差异很大。它们包含许多不同类型的海洋垃圾的图像，这些图像是从现实世界环境中捕获的，提供了处于不同衰减、遮挡和过度生长状态的各种物体。此外，水的清晰度和光的质量因视频而异。这些视频经过处理以提取 5,700 张图像，这些图像构成了该数据集，所有图像都在垃圾实例、植物和动物等生物对象以及 ROV 上标有边界框。
小目标检测数据集
类型：目标检测
数量：800
数据集下载地址：http://visal.cs.cityu.edu.hk/downloads/smallobjects/
说明：
从Internet（例如YouTube或Google）上的图像/视频收集的四个小物体数据集，包括4种类型的图像，可用于小物体目标检测的研究。
数据集包含四类：
fly：飞行数据集，包含600个视频帧，平均每帧86±39个物体（648×72 @ 30 fps）。32张图像用于训练（1：6：187），50张图像用于测试（301：6：600）。
honeybee：蜜蜂数据集，包含118张图像，每张图像平均有28±6个蜜蜂（640×480）。数据集被平均分配用于训练和测试集。仅前32张图像用于训练。
seagull：海鸥数据集，包含三个高分辨率图像（624×964），每个图像平均有866±107个海鸥。第一张图片用于训练，其余图片用于测试。
fish：鱼数据集，包含387帧视频数据，平均每帧56±9条鱼（300×410 @ 30 fps）。32张图像进行训练（1：3：94），65张图像进行测试（193：3：387）。
AI-TOD航空图像数据集
类型：目标检测
数量：28000
数据集下载地址：https://github.com/jwwangchn/AI-TOD
说明：
AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比，AI-TOD 中目标的平均大小约为 12.8 像素，远小于其他数据集。
iSAID航空图像大规模数据集
类型：目标检测
数量：2800
数据集下载地址：https://captain-whu.github.io/iSAID/dataset.html
说明：
iSAID 是第一个用于航空图像实例分割的基准数据集。这个大规模和密集注释的数据集包含 2,806 张高分辨率图像的 15 个类别的 655,451 个对象实例。
TinyPerson数据集
类型：目标检测
数量：1600
数据集下载地址：https://github.com/ucas-vg/PointTinyBenchmark/tree/master/dataset
说明：
在 TinyPerson 中有 1610 个标记图像和 759 个未标记图像（两者主要来自同一视频集），总共有 72651 个注释。
Deepscores 数据集
类型：目标检测
数量：1600
数据集下载地址：https://tuggeluk.github.io/deepscores/
说明：
DeepScores 包含高质量的乐谱图像，分为 300 0 000 张书面音乐，其中包含不同形状和大小的符号。
拥有近一亿个小对象，这使得我们的数据集不仅独一无二，而且是最大的公共数据集。DeepScores 带有用于对象分类、检测和语义分割的基本事实。因此，DeepScores 总体上对计算机视觉提出了相关挑战，超出了光学音乐识别 (OMR) 研究的范围。
密集行人检测数据集
类型：目标检测
数量：13,382
数据集下载地址：http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson/
说明：
WiderPerson 数据集是野外行人检测基准数据集，其图像选自广泛的场景，不再局限于交通场景。我们选择了 13,382 张图像并标记了大约 400K 带有各种遮挡的注释。我们随机选择 8000/1000/4382 图像作为训练、验证和测试子集。与 CityPersons 和 WIDER FACE 数据集类似，我们不发布测试图像的边界框基本事实。
加州理工学院行人检测数据集
类型：目标检测
数量：13,382
数据集下载地址：http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
说明：
加州理工学院行人数据集由大约 10 小时的 640x480 30Hz 视频组成，该视频取自在城市环境中通过常规交通行驶的车辆。注释了大约 250,000 帧（在 137 个大约分钟长的片段中），总共 350,000 个边界框和 2300 个独特的行人。注释包括边界框和详细的遮挡标签之间的时间对应关系。
NWPU VHR-10卫星图像数据集
类型：目标检测
数量：800
数据集下载地址：http://www.escience.cn/people/gongcheng/NWPU-VHR-10.html
说明：
NWPU VHR-10 Dataset 是一个用于空间物体检测的 10 级地理遥感数据集，其拥有 650 张包含目标的图像和 150 张背景图像，共计 800 张，目标种类包括飞机、舰船、油罐、棒球场、网球场、篮球场、田径场、港口、桥梁和汽车共计 10 个类别。
Inria 航空影像数据集
类型：目标检测
数量：800
数据集下载地址：https://project.inria.fr/aerialimagelabeling/
说明：
Inria 航空影像标注解决了遥感中的一个核心主题：航空影像的自动像素级标注。
数据集覆盖面积 810 平方公里（405 平方公里用于训练，405 平方公里用于测试）
空间分辨率为 0.3 m 的航空正射校正彩色图像
这些图像涵盖了不同的城市住区，从人口稠密的地区到高山城镇。
RSOD遥感图像数据集
类型：目标检测
数量：800
数据集下载地址：https://github.com/RSIA-LIESMARS-WHU/RSOD-Dataset-
说明：
一个开放的遥感图像目标检测数据集。数据集包括飞机、油箱、游乐场和立交桥。此数据集的格式为PASCAL VOC。数据集包括4个文件，每个文件用于一种对象。
飞机数据集，446张图片中有4993架飞机。
操场，189张图片中的191个操场。
天桥，176张图片中的180座天桥。
油箱，165张图片中的1586个油箱。
EDS 数据集
类型：目标检测
数量：14219
数据集下载地址： https://github.com/DIG-Beihang/PSN
说明：
EDS 数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究，包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例，均由专业标注人员进行标注。
多显著性对象数据集
类型：目标检测
数量：1224
数据集下载地址：https://www.kaggle.com/datasets/jessicali9530/mso-dataset
说明：
本数据集共有 1224 张图像来自四个公共图像数据集：COCO、VOC07、ImageNet 和 SUN。Amazon Mechanic Turk 工作人员将每个图像标记为包含 0、1、2、3 或 4 个以上的显着对象。可以在imgIdx.mat中找到此标签信息以及边界框注释，一个存储图像信息的matlab结构数组。MSO 数据集是 SOS 数据集测试集的子集。波士顿大学的团队删除了一些显着对象严重重叠或者对于标记指定数量的显着对象不明确的图像。因此，在来自 SOS 测试集的 1380 张图像中，只剩下 1224 张图像。MSO 数据集中超过一半的图像包含零个显着对象或多个显着对象。这旨在提供更真实的设置来评估显着对象检测方法。
足球和板球数据集
类型：目标检测
数量：
数据集下载地址：https://www.kaggle.com/datasets/mlwhiz/detection-footballvscricketball
说明：
该数据集包含YOLO格式的足球和板球的注释图像，为Open Image Dataset 的一个子集。
交通摄像头检测数据集
类型：目标检测
数量：
数据集下载地址：https://www.kaggle.com/datasets/ryankraus/traffic-camera-object-detection
说明：
该数据集是来自伊利诺伊州芝加哥市交通摄像头的增强随机屏幕截图的集合。在数据中，所有车辆都被标记在一个名为的类别中 car。标签由边界框组成，并以 YOLOv5 PyTorch 格式存储。
船只类型数据集
类型：目标检测
数量：1500
数据集下载地址：https://www.kaggle.com/datasets/clorichel/boat-types-recognition
说明：
大约 1,500 张不同大小的船图片，但按不同类型分类：浮标、游轮、渡船、货船、贡多拉、充气船、皮划艇、纸船、帆船。
火星/月球陨石坑探测数据集
类型：目标检测
数量：
数据集下载地址：https://www.kaggle.com/datasets/lincolnzh/martianlunar-crater-detection-dataset
说明：
数据集主要包含图像数据和标签。
图像数据：可能包含陨石坑的火星和月球表面图像。数据源混杂。对于火星图像，图像主要来自 ASU 和 USGS；目前所有月球图像都来自美国宇航局月球勘测轨道器任务。所有图像均使用 RoboFlow 进行预处理。
标签：每个图像都有其关联的 YOLOv5 文本格式的标签文件。标注工作由我们自己完成，主要用于物体检测。
无人机检测数据集
类型：目标检测
数量：1962
数据集下载地址：https://www.kaggle.com/datasets/nelyg8002000/uav-detection-dataset-images
说明：
该数据集包含 1962 个 jpg 无人机图像，可以用于图像分类。
优点：所有图像都经过清理、裁剪、重复删除、劣质质量删除等。
缺点：图片为不同的尺寸。
COCO2017数据集
类型：目标检测
数量：158000
数据集下载地址：https://github.com/cocodataset/cocoapi
说明：
COCO是微软团队提供的一个可以用来进行图像识别的大型图像数据集，用于对象检测、分割、人员关键点检测、素材分割和字幕生成。
CoCo数据集一共有五种标注类型：目标检测，关键点检测，素材分割，全景分割，图像说明
COCO2017是2017年发布的COCO数据集的一个版本，共 80 小类，主要用于在2017年后持有的物体检测任务、关键点检测任务和全景分割任务。

2. 人脸（face）

GENKI 人脸图像数据集
类型：人脸
数量：15000
数据集下载地址：https://inc.ucsd.edu/mplab/398.php
说明：
GENKI数据集是由加利福尼亚大学的机器概念实验室收集。该数据集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三个部分。GENKI-R2009a包含11159个图像，GENKI-4K包含4000个图像，分为“笑”和“不笑”两种，每个图片的人脸的尺度大小，姿势，光照变化，头的转动等都不一样，专门用于做笑脸识别。GENKI-SZSL包含3500个图像，这些图像包括广泛的背景，光照条件，地理位置，个人身份和种族等。
哥伦比亚大学公众人物脸部数据库
类型：人脸
数量：58,797
数据集下载地址：https://www.cs.columbia.edu/CAVE/databases/pubfig/
说明：
PubFig Dataset 是一个大型人脸数据集，主要用于人脸识别和身份鉴定，其涵盖互联网上 200 人的 58,797 张图像，不同于大多数现有面部数据集，这些图像是在主体完全不受控制的情况下拍摄的，因此不同图像中姿势、光照、表情、场景、相机、成像条件和参数存在较大差异，该数据集类似于 UMass-Amherst 创建的 LFW 数据集。
CelebA 人脸数据集
类型：人脸
数量：200000
数据集下载地址：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
说明：
CelebFaces Attributes Dataset (CelebA) 是一个大规模的人脸属性数据集，包含超过 20 万张名人图像，每张都有 40 个属性注释。该数据集中的图像涵盖了较大的姿势变化和杂乱的背景。CelebA 种类多、数量多、注释丰富，包括10,177 个身份，202,599 张人脸图像，以及5 个地标位置，每张图像 40 个二进制属性注释。
该数据集可用作以下计算机视觉任务的训练和测试集：人脸属性识别、人脸识别、人脸检测、地标（或人脸部分）定位以及人脸编辑与合成。
美国国防部人脸库
类型：人脸
数量：10000
数据集下载地址：https://www.nist.gov/itl/products-and-services/color-feret-database
说明：
为促进人脸识别算法的研究和实用化，美国国防部的Counterdrug Technology Transfer Program(CTTP)发起了一个人脸识别技术(Face Recognition Technology 简称FERET)工程，它包括了一个通用人脸库以及通用测试标准。到1997年，它已经包含了1000多人的10000多张照片，每个人包括了不同表情，光照，姿态和年龄的照片。
MTFL人脸识别数据集
类型：人脸
数量：12995
数据集下载地址：http://mmlab.ie.cuhk.edu.hk/projects/TCDCN.html
说明：
该数据集包含 12,995 张人脸图像，这些图像用 (1) 五个面部标志，(2) 性别、微笑、戴眼镜和头部姿势的属性进行了注释。
BioID人脸数据集
类型：人脸
数量：1521
数据集下载地址：https://www.bioid.com/facedb/
说明：
这个数据集包含了1521幅分辨率为384x286像素的灰度图像。每一幅图像来自于23个不同的测试人员的正面角度的人脸。为了便于做比较，这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。
PersonID人脸识别数据集
类型：人脸
数量：
数据集下载地址：https://cvhci.anthropomatik.kit.edu/~baeuml/publications/semi-supervised-learning-with-constraints-for-person-identification-in-multimedia-data/
说明：
该数据集所选用的人脸照片均来自于两部比较知名的电视剧，《吸血鬼猎人巴菲》和《生活大爆炸》。
CMU PIE人脸库
类型：人脸
数量：40000
数据集下载地址：http://vasc.ri.cmu.edu/idb/html/face/index.html
说明：
CMU PIE人脸库建立于2000年11月，它包括来自68个人的40000张照片，其中包括了每个人的13种姿态条件，43种光照条件和4种表情下的照片，现有的多姿态人脸识别的文献基本上都是在CMU PIE人脸库上测试的。
Youtube视频人脸数据集
类型：人脸
数量：3425
数据集下载地址：http://www.cs.tau.ac.il/~wolf/ytfaces/
说明：
该数据集包含 1,595 个不同人的 3,425 个视频。所有视频都是从 YouTube 下载的。每个主题平均有 2.15 个视频可用。最短剪辑时长为 48 帧，最长剪辑为 6070 帧，视频剪辑的平均长度为 181.3 帧。在这个数据集下，算法需要判断两段视频里面是不是同一个人。
CASIA 人脸图像数据集
类型：人脸
数量：2500
数据集下载地址：http://biometrics.idealtest.org/dbDetailForUser.do?id=9#/
说明：
CASIA 人脸图像数据库版本 5.0（或 CASIA-FaceV5）包含 500 个对象的 2,500 个彩色人脸图像。CASIA-FaceV5 的面部图像是使用罗技 USB 摄像头在一个会话中捕获的。CASIA-FaceV5的志愿者包括研究生、工人、服务员等。所有人脸图像均为16位彩色BMP文件，图像分辨率为640*480。典型的类内变化包括照明、姿势、表情、眼镜、成像距离等。
Caltech人脸数据库
类型：人脸
数量：10,524
数据集下载地址：http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/#Description
说明：
该数据集包含通过在谷歌图片搜索中输入常见的名字从网络上收集的人的图像。每个正面的眼睛、鼻子和嘴巴中心的坐标在地面实况文件中提供。此信息可用于对齐和裁剪人脸或作为人脸检测算法的基本事实。该数据集有 10,524 个不同分辨率和不同设置的人脸，例如肖像图像、人群等。侧面或非常低分辨率的面孔未标记。
RMFD口罩遮挡人脸数据集
类型：人脸
数量：90000
数据集下载地址：https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset
说明：
RMFRD目前是世界上最大的真实口罩遮挡人脸数据集。
提出了三种类型的口罩遮挡人脸数据集，包括口罩遮挡人脸检测数据集（MFDD），真实口罩遮挡人脸识别数据集（RMFRD）和模拟口罩遮挡人脸识别数据集（SMFRD）。
这些数据集可供工业界和学术界免费使用，基于这些数据集，可以开发口罩遮挡人脸的各种应用。
(1) 真实口罩人脸识别数据集：从网络爬取样本，经过整理、清洗和标注后，含525人的5千张口罩人脸、9万正常人脸。
(2) 模拟口罩人脸识别数据集：给公开数据集中的人脸戴上口罩，得到1万人、50万张人脸的模拟口罩人脸数据集。
(3)真实口罩人脸验证数据集，包括426个人的4015张人脸图像，组合成3589对相同身份和3589对不同身份的人脸样本对（口罩人脸/正常人脸）。
IMDB-WIKI人脸数据集
类型：人脸
数量：524230
数据集下载地址：https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/
说明：
IMDB-WIKI 500k+ 是一个包含名人人脸图像、年龄、性别的数据集，图像和年龄、性别信息从 IMDB 和 WiKi 网站抓取，总计 524230 张名人人脸图像及对应的年龄和性别。其中，获取自 IMDB 的 460723 张，获取自 WiKi 的 62328 张。
WiderFace人脸检测数据集
类型：人脸
数量：32203
数据集下载地址：http://shuoyang1213.me/WIDERFACE/
说明：
WIDER FACE数据集是人脸检测的一个benchmark数据集，包含32203图像，以及393,703个标注人脸，其中，158,989个标注人脸位于训练集，39,496个位于验证集。每一个子集都包含3个级别的检测难度：Easy，Medium，Hard。这些人脸在尺度，姿态，光照、表情、遮挡方面都有很大的变化范围。WIDER FACE选择的图像主要来源于公开数据集WIDER。制作者来自于香港中文大学，他们选择了WIDER的61个事件类别，对于每个类别，随机选择40%10%50%作为训练、验证、测试集。
LFW 人像图像数据集
类型：人脸
数量：1680
数据集下载地址：http://vis-www.cs.umass.edu/lfw/#explore
说明：
该数据集是用于研究无约束面部识别问题的面部照片数据库。数据集包含从网络收集的13000多张图像。每张脸都贴上了所画的人的名字，图片中的1680人在数据集中有两个或更多不同的照片。

3. 文本识别（textg recongition）

53.文档影印和内容数据
类型：文本识别
数量：
数据集下载地址： http://www.mediateam.oulu.fi/downloads/MTDB/
说明：
MediaTeam Oulu Document 数据集是一个文档扫描图像和文档内容数据集，包含 500篇 1975年之前的文档信息。
54. CASIA手写数据集
类型：文本识别
数量：56,469
数据集下载地址：http://www.nlpr.ia.ac.cn/databases/handwriting/Touching_Characters_Databases.html
说明：
CASIA-HWDB-T包括56,469个二字或多字触摸字符串，其中1,818个字符串有多个触摸字符。作者还将接触字符串划分为 50,157 个全中文字符串、2,788 个全数字字符串、328 个全字母字符串和 3,196 个混合字符字符串。所有的字符串都标注了字符类、触摸点的位置以及字符串高度和平均笔画宽度等辅助值
55. Twitter地理定位信息数据集
类型：文本识别
数量：115,886
数据集下载地址：https://archive.org/details/twitter_cikm_2010
说明：
该数据集是与学术项目协调使用的公共推特更新的集合，用于研究与推特相关的地理定位数据。训练集包含 115,886 个 Twitter 用户和来自用户的 3,844,612 个更新。用户的所有位置都在美国以城市级粒度进行自我标记。测试集包含 5,136 个 Twitter 用户和来自用户的 5,156,047 条推文。用户的所有位置都是从他们的智能手机以“UT：纬度，经度”的形式上传的
56. 专利短语数据集
类型：文本识别
数量：
数据集下载地址：该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息
说明：
该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息
57. 电影元数据
类型：文本识别
数量：700000
数据集下载地址：https://www.kaggle.com/datasets/akshaypawar7/millions-of-movies
说明：
这些文件包含 TMDB 数据集中列出的超过 700,000 部电影的元数据。数据集每天更新以确保更新电影数据集。数据点包括演员、工作人员、情节关键词、预算、收入、海报、发布日期、语言、制作公司、国家、TMDB 投票计数和投票平均值、评论、推荐。
58. Olist 电子商务公共数据集
类型：文本识别
数量：100000
数据集下载地址：https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce
说明：
这是在Olist Store下订单的巴西电子商务公共数据集。该数据集包含 2016 年至 2018 年在巴西多个市场进行的 10 万份订单的信息。它的功能允许从多个维度查看订单：从订单状态、价格、付款和货运绩效到客户位置、产品属性，最后是客户撰写的评论。这是真实的商业数据，已匿名，评论文本中对公司和合作伙伴的引用已替换为《权力的游戏》大家族的名称。
59. Top1000的Github存储库数据集
类型：文本识别
数量：
数据集下载地址：https://www.kaggle.com/datasets/anshulmehtakaggl/top-1000-github-repositories-for-multiple-domains
说明：
关于 Github 上的 1000 个最受欢迎的关键字存储库的详尽数据

4. 图像分类（image classification）

MNIST 手写数字图像数据集
类型：分类
数量：70000
数据集下载地址： http://yann.lecun.com/exdb/mnist/
说明：
MNIST数据集是一个手写阿拉伯数字图像识别数据集，图片分辨率为 20x20 灰度图图片，包含‘0 - 9’ 十组手写手写阿拉伯数字的图片。其中，训练样本 60000 ，测试样本 10000，数据为图片的像素点值，作者已经对数据集进行了压缩。
GTSRB德国交通标志数据集
类型：分类
数量：50000
数据集下载地址：https://benchmark.ini.rub.de/gtsrb_news.html
说明：
德国交通标志基准测试是在 2011 年国际神经网络联合会议 (IJCNN) 上举办的多类单图像分类挑战赛。
该数据集收集了超过 50,000 个交通标志图像的全面、逼真的数据集。它反映了由于距离、照明、天气条件、部分遮挡和旋转而导致的标志视觉外观的强烈变化。
该数据集包含 43 个类别频率不平衡的类别。参与者必须对两个测试集进行分类，每个测试集超过 12,500 张图像。
Winegrape检测数据集
类型：分类
数量：300
数据集下载地址：https://github.com/thsant/wgisd
说明：
WGISD是为了提供图像和注释来研究对象检测和实例分割，用于葡萄栽培中基于图像的监测和现场机器人技术。它提供了来自五种不同葡萄品种的实地实例。这些实例显示了葡萄姿势、光照和焦点的变化，包括遗传和物候变化，如形状、颜色和紧实度。可能的用途包括放宽实例分割问题：分类（图像中是否有葡萄？）、语义分割（图像中的“葡萄像素”是什么？）、对象检测（图像中的葡萄在哪里？）、和计数（每个簇有多少浆果？）。
VOC2005车辆数据集
类型：图像分类
数量：
数据集下载地址：http://host.robots.ox.ac.uk/pascal/VOC/voc2005/index.html
说明：
该数据集中含有自行车、摩托车、汽车、货车的图像数据，可用于CNN模型以实现车辆识别和车辆分类，其中自行车、摩托车、汽车数据来自2005 PASCAL视觉类挑战赛（VOC2005）所使用的数据的筛选处理结果，货车图片来自网络收集，后期通过筛选处理得到。在本数据中，训练数据集与测试数据集占比约为5:1。
宠物图像数据集
类型：图像分类
数量：7350
数据集下载地址：https://www.robots.ox.ac.uk/~vgg/data/pets/
说明：
一个包含 37 个类别的宠物数据集，每个类别大约有 200 张图像。这些图像在比例、姿势和照明方面有很大的变化。所有图像都有相关的品种、头部 ROI 和像素级三元图分割的地面实况注释。
猫咪数据集
类型：图像分类
数量：9000
数据集下载地址： https://www.kaggle.com/datasets/crawford/cat-dataset
说明：
CAT 数据集包括超过 9,000 张猫图像。对于每张图像，猫的头部都有九个点的注释，眼睛两个，嘴巴一个，耳朵六个。
斯坦福狗狗数据集
类型：图像分类
数量：20,580
数据集下载地址： http://vision.stanford.edu/aditya86/ImageNetDogs/
说明：
斯坦福狗数据集包含来自世界各地的 120 种狗的图像。该数据集是使用 ImageNet 中的图像和注释构建的，用于细粒度图像分类任务。
该数据集的内容：类别数：120，图片数量：20,580，注释：类标签、边界框
Stanford 汽车图片数据
类型：图像分类
数量：16,185
数据集下载地址： ai.stanford.edu/~jkrause/cars/car_dataset.html
说明：
Cars 数据集包含 196 类汽车的 16,185 张图像。数据分为 8,144 个训练图像和 8,041 个测试图像，其中每个类别大致按 50-50 分割。课程通常在品牌、型号、年份级别，例如 2012 Tesla Model S 或 2012 BMW M3 coupe。
花卉数据集
类型：图像分类
数量：4242
数据集下载地址：https://www.kaggle.com/datasets/alxmamaev/flowers-recognition
说明：
该数据集包含 4242 张花卉图像。数据收集基于数据flicr、google images、yandex images。此数据集可用于从照片中识别植物。数据图片会分为五类：洋甘菊、郁金香、玫瑰、向日葵、蒲公英。每个种类大约有800张照片。照片分辨率不高，约为 320x240 像素。照片不会缩小到单一尺寸，它们有不同的比例。
综合汽车数据集
类型：图像分类
数量：136726
数据集下载地址：https://www.kaggle.com/datasets/renancostaalencar/compcars
说明：
该数据集是被CVPR 2015 论文“用于细粒度分类和验证的大规模汽车数据集”所使用的。综合汽车 (CompCars) 数据集包含来自两个场景的数据，包括来自网络自然和监视自然的图像。 web-nature 数据包含 163 个汽车制造商和 1,716 个汽车型号。总共有 136,726 张拍摄整车的图像和 27,618 张拍摄汽车零件的图像。完整的汽车图像标有边界框和视点。每个车型都标有五个属性，包括最大速度、排量、门数、座位数和汽车类型。监控性质的数据包含在前视图中捕获的 50,000 张汽车图像。
室内场景识别
类型：图像分类
数量：15620
数据集下载地址：https://www.kaggle.com/datasets/itsahmad/indoor-scenes-cvpr-2019
说明：
该数据集是麻省理工学院提供的原始数据。室内场景识别是高层次视觉中一个具有挑战性的开放性问题。大多数适用于室外场景的场景识别模型在室内领域表现不佳。主要困难在于，虽然一些室内场景（例如走廊）可以通过全局空间属性很好地表征，但其他的（例如书店）可以通过它们包含的对象更好地表征。
该数据库包含 67 个室内类别，共 15620 张图像。图片的数量因类别而异，但每个类别至少有 100 张图片。所有图片均为jpg格式。
90种动物图像数据集
类型：图像分类
数量：5400
数据集下载地址：https://www.kaggle.com/datasets/iamsouravbanerjee/animal-image-dataset-90-different-animals
说明：
在这个数据集中有 90 个不同类别的 5400 张动物图像。此数据集是从 Google 图片创建的。所有照片将按照其所属类别存放于各自的文件夹下。动物类别包括：羚羊，獾，蝙蝠，熊，蜜蜂，甲虫，野牛，公猪，蝴蝶，猫，毛虫，黑猩猩等。该数据集中的图像大小不固定，需要后续的处理。
标注鱼类数据集
类型：图像分类
数量：
数据集下载地址：https://swfscdata.nmfs.noaa.gov/labeled-fishes-in-the-wild/
说明：
野生图像数据集中的标记鱼类由 NOAA Fisheries（国家海洋渔业服务局）提供，以鼓励对无约束水下图像的自动图像分析算法进行开发、测试和性能评估。
该数据集包括鱼类、无脊椎动物和海床的图像，这些图像是使用部署在远程操作车辆 (ROV) 上的摄像系统收集的，用于渔业调查。
衣服数据集
类型：图像分类
数量：5000
数据集下载地址：https://www.kaggle.com/datasets/agrigorev/clothing-dataset-full
说明：
衣服数据集总共收集了 20 种衣服的 5,000 张图像。该数据集是根据公共领域许可 (CC0) 发布的。
数据集包含 20 个类，包括T 恤（1011 件），长袖（699 件），裤子（692 件），鞋子（431 件）衬衫（378 件），连衣裙（357 件），外套（312 件），短裤（308 件），帽子（171 件），裙子（155 件），西装外套（109 件）等。
用特殊标志“孩子”标记了儿童服装的图像：是童装（476 项），不是童装（4927 项）。
商标数据集
类型：图像分类
数量：167,140
数据集下载地址：https://github.com/msn199959/Logo-2k-plus-Dataset
说明：
构建了一个大规模的 logo 数据集 Logo-2K+，它涵盖了来自真实世界 logo 图像的各种 logo 类别。我们生成的徽标数据集包含 167,140 张图像，具有 10 个根类别和 2,341 个类别。
飞机数据集
类型：图像分类
数量：10000
数据集下载地址：https://www.kaggle.com/datasets/seryouxblaster764/fgvc-aircraft
说明：
数据集包含 10,000 张飞机图像，数据分为 3334 个训练图像、3333 个验证图像和 3333 个测试图像。飞机模型按四级层次结构组织。四个层次，从细到粗，分别是：
型号，例如波音 737-76J。由于某些模型在视觉上几乎无法区分，因此在评估中不使用此级别。
变体，例如波音 737-700。一个变体将所有在视觉上无法区分的模型折叠成一个类。该数据集包含 100 个不同的变体。
家庭，例如波音 737。该数据集包含 70 个不同的家族。
制造商，例如波音。该数据集包含 41 个不同的制造商。
Office-Home数据
类型：图像分类
数量：15500
数据集下载地址：https://www.hemanthdv.org/officeHomeDataset.html
说明：
Office-Home 是一个用于域适应的基准数据集，它包含 4 个域，每个域由 65 个类别组成。这四个领域是：艺术——素描、绘画、装饰等形式的艺术形象；剪贴画——剪贴画图像的集合；产品——没有背景的物体图像；和真实世界——用普通相机拍摄的物体图像。它包含 15,500 张图像，平均每个类大约 70 张图像，一个类最多 99 张图像
食物图像数据集
类型：图像分类
数量：10000
数据集下载地址：https://www.kaggle.com/datasets/kmader/food41
说明：
该数据集包含完整 food-101 数据的许多不同子集。为了给图像分析制作一个比 CIFAR10 或 MNIST 更简单的训练集，该数据包括图像的大规模缩小版本，以实现快速测试。数据已被重新格式化为 HDF5，特别是 Keras HDF5Matrix，这样可以轻松读取它们。
加州理工学院相机陷阱数据集
类型：分类
数量：243100
数据集下载地址：https://beerys.github.io/CaltechCameraTraps/
说明：
该数据集包含来自美国西南部 140 个摄像头位置的 243,100 张图像，带有 21 个动物类别的标签（加上空白），主要是在物种级别（例如，最常见的标签是负鼠、浣熊和土狼），以及大约 66,000 个边界框注释。大约 70% 的图像被标记为空。
SVHN 街景门牌号数据集
类型：图像识别
数量：600,000
数据集下载地址：http://ufldl.stanford.edu/housenumbers/
说明：
SVHN 是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式化的要求最低。它可以被视为与MNIST风格相似（例如，图像是经过裁剪的小数字），但包含一个数量级的更多标记数据（超过 600,000 个数字图像），并且来自一个更难、未解决的现实世界问题（识别自然场景图像中的数字和数字）。SVHN 是从谷歌街景图像中的门牌号获得的。
3D MNIST 数字识别图像数据
类型：图像识别
数量：
数据集下载地址：https://www.kaggle.com/datasets/daavoo/3d-mnist
说明：
该数据集的目的是提供一种简单的方法来开始处理 3D 计算机视觉问题，例如 3D 形状识别。
该数据集包含从MNIST数据集的原始图像生成的3D点云，为使用2D数据集（图像）的人们带来熟悉的3D介绍。
CBCL 街道场景数据
类型：图像识别
数量：
数据集下载地址：http://cbcl.mit.edu/software-datasets/streetscenes/
说明：
StreetScenes Challenge Framework 是用于对象检测的图像、注释、软件和性能测量的集合。每张图像都是从马萨诸塞州波士顿及其周边地区的 DSC-F717 相机拍摄的。然后用围绕 9 个对象类别的每个示例的多边形手动标记每个图像，包括 [汽车、行人、自行车、建筑物、树木、天空、道路、人行道和商店]。这些图像的标记是在仔细检查下完成的，以确保对象总是以相同的方式标记，关于遮挡和其他常见的图像变换。

5. 缺陷检测（defect detection）

AITEX数据集
类型：缺陷检测
数量：245
数据集下载地址：https://www.aitex.es/afid/
说明：
该数据库由七个不同织物结构的245张4096 x 256像素图像组成。数据库中有140个无缺陷图像，每种类型的织物20个，除此之外，有105幅纺织行业中常见的不同类型的织物缺陷（12种缺陷）图像。图像的大尺寸允许用户使用不同的窗口尺寸，从而增加了样本数量。
Internet上的数据库还包含所有具有缺陷的图像的分割mask，使得白色像素表示缺陷区域，其余像素为黑色。
天池铝型材表面缺陷数据集
类型：缺陷检测
数量：10000
数据集下载地址：https://tianchi.aliyun.com/competition/entrance/231682/information
说明：
数据集里有1万份来自实际生产中有瑕疵的铝型材监测影像数据，每个影像包含一个或多种瑕疵。供机器学习的样图会明确标识影像中所包含的瑕疵类型。
图片分成单瑕疵图片、多瑕疵图片以及无瑕疵图片：单瑕疵图片指所含瑕疵类型只有一种的图片，但图片中可能出现多处相同类型的瑕疵；多瑕疵图片指所含瑕疵类型多于一种的图片；无瑕疵图片指瑕疵可忽略不计的图片，这些图片不需要标注。
Kylberg 纹理数据集
类型：缺陷检测
数量：20000
数据集下载地址：https://www.cb.uu.se/~gustaf/texture/
说明：
在布匹生产过程中，由于各方面因素的影响，会产生污渍、破洞、毛粒等瑕疵，为保证产品质量，需要对布匹进行瑕疵检测。
布匹疵点检验是纺织行业生产和质量管理的重要环节，目前人工检测易受主观因素影响，缺乏一致性；并且检测人员在强光下长时间工作对视力影响极大。由于布匹疵点种类繁多、形态变化多样、观察识别难道大，导致布匹疵点智能检测是困扰行业多年的技术瓶颈。
数据集包括 28个纹理类，每类160个独特纹理面片。数据包括包括素色布和花色布两类，其中，素色布数据约8000张；花色布数据约12000张。
本数据涵盖了纺织业中布匹的各类重要瑕疵，每张图片含一个或多种瑕疵。
东北大学带钢表面缺陷数据集
类型：缺陷检测
数量：1800
数据集下载地址：http://faculty.neu.edu.cn/songkechen/zh_CN/zdylm/263270/list/
说明：
数据集收集了夹杂、划痕、压入氧化皮、裂纹、麻点和斑块6种缺陷，每种缺陷300张，图像尺寸为200×200。
数据集包括分类和目标检测两部分，不过目标检测的标注中有少量错误，需要注意。
谢韦尔钢铁公司带钢缺陷数据集
类型：缺陷检测
数量：18000
数据集下载地址：https://www.kaggle.com/c/severstal-steel-defect-detection/data
说明：
该数据集中提供了四种类型的带钢表面缺陷。训练集共有12568张，测试集5506张。图像尺寸为1600×256。
UCI 带钢缺陷数据集
类型：缺陷检测
数量：
数据集下载地址：https://archive.ics.uci.edu/ml/datasets/Steel+Plates+Faults
说明：
该数据集包含了7种带钢缺陷类型：装饰、Z划痕、K划痕、污渍、肮脏、颠簸、其他故障。
这个数据集不是图像数据，而是带钢缺陷的28种特征数据，可用于机器学习项目。
DAGM 2007数据集
类型：缺陷检测
数量：1000
数据集下载地址：https://hci.iwr.uni-heidelberg.de/content/weakly-supervised-learning-industrial-optical-inspection
说明：
该数据集用于统计纹理表面缺陷检测，为较弱监督的训练数据。
包含十个数据集，前六个为训练数据集，后四个为测试数据集。每个数据集均包含以灰度8位PNG格式保存的1000个“无缺陷”图像和150个“有缺陷”图像，每个数据集由不同的纹理模型和缺陷模型生成。“无缺陷”图像显示的背景纹理没有缺陷，“无缺陷”图像的背景纹理上恰好有一个标记的缺陷。所有数据集已随机分为大小相等的训练和测试子数据集。弱标签以椭圆形表示，大致表示缺陷区域。
磁瓦缺陷数据集
类型：缺陷检测
数量：
数据集下载地址：https://gitcode.net/mirrors/abin24/Magnetic-tile-defect-datasets.?utm_source=csdn_github_accelerator
说明：
中国科学院自动所一个课题组收集的数据集，是“Saliency of magnetic tile surface defects”这篇论文的数据集。收集了6种常见磁瓦缺陷的图像，并做了语义分割的标注。
RSDDs铁轨表面缺陷数据集
类型：缺陷检测
数量：200
数据集下载地址：http://icn.bjtu.edu.cn/Visint/resources/RSDDs.aspx
说明：
RSDDs数据集包含两种类型的数据集：第一种是从快车道捕获的I型RSDDs数据集，其中包含67个具有挑战性的图像。第二个是从普通/重型运输轨道捕获的II型RSDDs数据集，其中包含128个具有挑战性的图像。
两个数据集的每幅图像至少包含一个缺陷，并且背景复杂且噪声很大。
RSDDs数据集中的这些缺陷已由一些专业的人类观察员在轨道表面检查领域进行了标记。
印刷电路板（PCB）瑕疵数据集
类型：缺陷检测
数量：1386
数据集下载地址：https://robotics.pkusz.edu.cn/resources/dataset/
说明：
这是一个公共的合成PCB数据集，由北京大学发布，其中包含1386张图像以及6种缺陷（缺失孔，鼠咬坏，开路，短路，杂散，伪铜），用于检测，分类和配准任务。

6. 医学影像（medical image）

COVID-19 胸部CT图像增强GAN数据集
类型：医学影像
数量：742
数据集下载地址：https://www.kaggle.com/datasets/mloey1/covid19-chest-ct-image-augmentation-gan-dataset?resource=download-directory
说明：
新冠肺炎胸部CT扫描数字图像。共有742个CT图像和2个类别（COVID/NonCOVID）。
3D-IRCADB脏器分割数据集
类型：医学影像
数量：20
数据集下载地址：https://www.ircad.fr/research/data-sets/liver-segmentation-3d-ircadb-01/
说明：
3D-IRCADb-01 数据库由 10 名女性和 10 名男性 75% 的肝肿瘤患者的 3D CT 扫描组成。 20个文件夹对应20个不同的患者，可以单独下载也可以联合下载。下表提供了图像信息，例如肝脏大小（宽度、深度、高度）或根据 Couninaud 分割的肿瘤位置。它还表明肝脏分割软件可能遇到的主要困难是由于与邻近器官的接触、肝脏的非典型形状或密度，甚至图像中的伪影。
Kumar肿瘤数据集
类型：医学影像
数量：
数据集下载地址：https://monuseg.grand-challenge.org/Data/
说明：
这一数据集是通过仔细注释几名患有不同器官肿瘤并在多家医院被诊断出的患者的组织图像获得的。该数据集是通过从TCGA存档下载以 40 倍放大倍率捕获的 H&E 染色组织图像创建的。H&E 染色是增强组织切片对比度的常规方案，通常用于肿瘤评估（分级、分期等）。考虑到多个器官和患者的细胞核外观的多样性，以及多家医院采用的丰富染色方案，训练数据集将能够开发出开箱即用的稳健且可推广的细胞核分割技术。
FASCICLE 小腿肌肉超声数据集
类型：医学影像
数量：812
数据集下载地址：https://kalisteo.cea.fr/index.php/fallmud/
说明：
FAscicle 小腿肌肉超声数据集是一个由 812 幅小腿肌肉超声图像组成的数据集，用于分析肌肉弱点并预防受伤。该数据集在文章 AW-Net：B 型超声图像上的自动肌肉结构分析以预防伤害中进行了介绍。它结合了由 Ryan Cunningham 等人发表的两篇文章“使用卷积、残差和反卷积神经网络从 B 模式超声图像中估计全区域骨骼肌纤维方向”提供的数据集。
PanNuke癌组织细胞数据集
类型：医学影像
数量：
数据集下载地址：https://jgamper.github.io/PanNukeDataset/
说明：
半自动生成的细胞核实例分割和分类数据集，包含 19 种不同组织类型的详尽细胞核标签。该数据集由 481 个视野组成，其中 312 个视野是从多个数据源的 20K 多个不同放大倍率的整张幻灯片图像中随机采样的。该数据集总共包含 205,343 个标记的核，每个核都有一个实例分割掩码。在 pannuke 上训练的模型可以帮助整个幻灯片图像组织类型分割，并推广到新组织。PanNuke 演示了首批成功半自动生成的数据集之一。
淋巴结切片的组织病理学数据集
类型：医学影像
数量：327680
数据集下载地址：https://github.com/basveeling/pcam
说明：
PatchCamelyon 是一个新的且具有挑战性的图像分类数据集。它由从淋巴结切片的组织病理学扫描中提取的 327.680 张彩色图像 (96 x 96px) 组成。每个图像都带有一个二进制标签，表示存在转移组织。
森尼布鲁克心脏数据集
类型：医学影像
数量：45
数据集下载地址：http://www.cardiacatlas.org/studies/sunnybrook-cardiac-data/
说明：
Sunnybrook心脏数据 (SCD)，也称为2009 年心脏 MR 左心室分割挑战数据，由 45 幅来自混合患者和病理的电影 MRI 图像组成：健康、肥大、心力衰竭伴梗死和心力衰竭无梗死。
血细胞图像数据集
类型：医学影像
数量：12500
数据集下载地址：https://github.com/Shenggan/BCCD_Dataset
说明：
该数据集包含 12,500 张带有细胞类型标签 (CSV) 的增强血细胞图像 (JPEG)。4 种不同细胞类型中的每一种都有大约 3,000 张图像，这些图像被分组到 4 个不同的文件夹中（根据细胞类型）。细胞类型是嗜酸性粒细胞、淋巴细胞、单核细胞和中性粒细胞。该数据集附带一个额外的数据集，其中包含原始 410 幅图像（预增强）以及两个额外的子类型标签（WBC 与 WBC），以及这 410 幅图像中每个单元格的边界框（JPEG + XML 元数据）。
脑肿瘤 MRI 数据集
类型：医学影像
数量：7000
数据集下载地址：https://www.kaggle.com/datasets/masoudnickparvar/brain-tumor-mri-dataset
说明：
该数据集包含7022张人脑 MRI 图像，分为 4 类：胶质瘤-脑膜瘤-无肿瘤和垂体。注意这个数据集中的图像大小是不同的。可以在预处理并去除多余的边距后将图像调整为所需的大小。
身体部位X射线图像数据集
类型：医学影像
数量：
数据集下载地址：https://www.kaggle.com/datasets/ibombonato/xray-body-images-in-png-unifesp-competion
说明：
本数据集收集了来自身体各部位的X光图片。
多分类问题。自动识别图像中的身体部位，从而可以创建更多数据集和部署管道。
眼病深度学习数据集
类型：医学影像
数量：
数据集下载地址：https://www.kaggle.com/datasets/bongsang/eye-disease-deep-learning-dataset
说明：
本数据集包含712张片状角膜溃疡的眼部染色图像。
该数据集的标签由 3 个类别、5 个类型和 5 个等级组成。可以是75个多标签。
膝关节 X 射线图像数据集
类型：医学影像
数量：1650
数据集下载地址：https://www.kaggle.com/datasets/tommyngx/digital-knee-xray
说明：
该数据集包括从知名医院和诊断中心收集的 1650 张膝关节电子 X 射线图像。X 射线图像是使用 PROTEC PRS 500E X 射线机获取的。原始图像是 8 位灰度图像。每个 X 射线膝关节 X 射线图像均由 2 位医学专家根据 Kellgren 和 Lawrence 等级手动注释/标记。

7. 图像分割（image segmentation）

高密度人群及移动物体视频数据集
类型：图像分割
数量：
数据集下载地址：https://www.cvmart.net/dataSets/detail/Unknown
说明：
Crowd Segmentation Dataset 是一个高密度人群和移动物体视频数据，视频来自BBC Motion Gallery 和 Getty Images 网站。
DAVIS 视频分割数据集
类型：图像分割
数量：
数据集下载地址：https://davischallenge.org/
说明：
Densely Annotated Video Segmentation 是一个高清视频中的物体分割数据集，包括 50个视频序列，3455个帧标注，视频采集自高清 1080p 格式。

8. 图像去雾（images defogging）

D-HAZY
类型：图像去雾
数量：1400
数据集下载地址：http://ancuti.meo.etc.upt.ro/D_Hazzy_ICIP2016/
说明：
D-HAZY，建立在Middelbury 和NYU深度数据集上，这些数据集提供各种场景的图像及其相应的深度图。包含1400多对图像的数据集，其中包括同一场景的地面真实参考图像和模糊图像。
RESIDE
类型：图像去雾
数量：
数据集下载地址：https://sites.google.com/view/reside-dehaze-datasets
说明：
RESIDE数据集包括合成和真实世界的模糊图像，称为REalistic Single Image Dehazing，RESIDE突出显示了各种数据源和图像内容，并分为五个子集，每个子集用于不同的训练或评估目的。提供了各种各样的去雾算法评估标准，从完整参考度量，无参考度量，到主观评估和任务驱动评估。
Middlebury Stereo双目立体匹配测试数据集
类型：图像去雾
数量：
数据集下载地址：https://vision.middlebury.edu/stereo/data/
说明：
数据集包括11个场景，在许多不同的照明条件和曝光（包括移动设备的闪光灯和“手电筒”照明）下，从1-3个不同的观看方向成像。
NH-HAZE
类型：图像去雾
数量：
数据集下载地址：https://data.vision.ee.ethz.ch/cvl/ntire20/nh-haze/
说明：
这是一个非均匀的真实数据集，具有成对的真实雾度和相应的无雾度图像。这是第一个非齐次图像去模糊数据集，包含55个室外场景。在场景中引入了非均匀雾，使用专业雾发生器模拟雾场景的真实条件。
DENSE-HAZE
类型：图像去雾
数量：
数据集下载地址：https://data.vision.ee.ethz.ch/cvl/ntire19//dense-haze/
说明：
以浓密均匀的朦胧场景为特征，包含33对真实的朦胧图像和各种室外场景的相应无霾图像。通过引入由专业雾霾机器生成的真实雾霾来记录雾霾场景。朦胧和无朦胧的对应场景包含在相同照明参数下捕获的相同视觉内容。

9. 关键点检测（key point detection）

手部姿势关键点检测数据集
类型：关键点检测
数量：
数据集下载地址：http://www.rovit.ua.es/dataset/mhpdataset/#citation
说明：
数据集由序列构成。在每个序列中，您都可以找到组成它的帧。一个帧由4个彩色图像、4组投影在每个图像平面中的2D关节、4个边界框、1组Leap Motion Controller提供的3D点和4组重新投影到每个相机坐标帧的3D点组成
动物姿势数据集
类型：关键点检测
数量：4000
数据集下载地址：https://github.com/switchablenorms/DeepFashion2
说明：
该数据集提供了五个类别的动物姿势注释：狗、猫、牛、马、羊，在4,000 多张图像中总共有6,000多个实例。此外，该数据集还包含其他7 个动物类别的边界框注释。在论文中查找详细信息。
该数据集一共标注了 20 个关键点：两只眼睛、喉咙、鼻子、马肩隆、两个耳根、尾根、四个肘部、四个膝盖、四个爪子。
电影人物关节关键点数据集
类型：关键点检测
数量：5000
数据集下载地址：https://bensapp.github.io/flic-dataset.html
说明：
本文从流行的好莱坞电影中自动收集了5003个图像数据集。这些图像是通过在30部电影的每10帧上运行一个最先进的人检测器获得的
MPIIGaze数据集
类型：关键点检测
数量：213659
数据集下载地址：https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/gaze-based-human-computer-interaction/appearance-based-gaze-estimation-in-the-wild
说明：
数据集包含我们在三个多月的日常笔记本电脑使用过程中从15名参与者收集的213659张图像。在外观和照明方面，我们的数据集比现有的数据集变化更大。
人体足部关键点数据集
类型：关键点检测
数量：
数据集下载地址：https://cmu-perceptual-computing-lab.github.io/foot_keypoint_dataset/
说明：
MPII 数据集标注了脚踝、膝盖、臀部、肩膀、肘部、手腕、颈部、躯干和头顶，而 COCO 还包括一些面部关键点。对于这两个数据集，足部注释仅限于脚踝位置。COCO 数据集中的一小部分脚实例使用 Clickworker 平台进行标记。它分为来自 COCO 训练集的 14K 注释和来自验证集的 545 个注释。
人群姿态数据集
类型：关键点检测
数量：
数据集下载地址：https://github.com/Jeff-sjtu/CrowdPose
说明：
多人姿态估计是许多计算机视觉任务的基础。然而，以前很少有方法研究拥挤场景中的姿态估计问题，而在许多场景中，这仍然是一个具有挑战性和不可避免的问题。

10. 动作识别（action recognition）

HMDB人类动作视频数据集
类型：动作识别
数量：6849
数据集下载地址： https://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/
说明：
由布朗大学发布的人类动作视频数据集，该数据集视频多数来源于电影，还有一部分来自公共数据库以及YouTube等网络视频库。数据库包含有6849段样本，分为51类，每类至少包含有101段样本。
操作类别可以分为五种类型：一般面部动作，物体操纵的面部动作，一般身体动作，身体动作与物体相互作用，人体互动的身体动作。
UCF50动作识别数据集
类型：动作识别
数量：
数据集下载地址： https://www.crcv.ucf.edu/data/UCF50.php
说明：
UCF50 是一个由中佛罗里达大学发布的动作识别数据集，由来自 youtube 的真实视频组成，包含 50 个动作类别，如棒球投球、篮球投篮、卧推、骑自行车、骑自行车、台球、蛙泳、挺举、跳水、击鼓等。对于所有 50 个类别，视频分为 25 组，其中每组由超过 4 个动作剪辑。同一组中的视频片段可能具有一些共同的特征，例如同一个人、相似背景、相似视点等。
SBU Kinect 交互数据集
类型：动作识别
数量：
数据集下载地址： https://www3.cs.stonybrook.edu/~kyun/research/kinect_interaction/index.html
说明：
SBU Kinect Interaction 创建了一个描述两个人交互的复杂人类活动数据集，包括同步视频、深度和运动捕获数据。此外，在通过支持向量机（SVM）实时检测交互活动的背景下，我们使用数据集评估通常用于索引和检索运动捕捉数据的各种特征。
FineDiving 跳水数据集
类型：动作识别
数量：
数据集下载地址： https://finediving.ivg-research.xyz/
说明：
收集了奥运会、世界杯、世锦赛以及欧锦赛的跳水项目比赛视频。每个比赛视频都提供了丰富的内容，包括所有运动员的跳水记录、不同视角的慢速回放等。
ALOV300++跟踪数据集
类型：目标跟踪
数量：
数据集下载地址：https://aimagelab.ing.unimore.it/dsm/
说明：
ALOV++，Amsterdam Library of Ordinary Videos for tracking 是一个物体追踪视频数据，旨在对不同的光线、通透度、泛着条件、背景杂乱程度、焦距下的相似物体的追踪

11. 姿态估计（pose estimation）

MPII人体模型数据集
类型：姿态估计
数量：10000
数据集下载地址：https://humanshape.mpi-inf.mpg.de/
说明：
该数据集包含通过在Google Image Search中键入常见的名字从web上收集的人们的图像。每个正面的眼睛、鼻子和嘴巴中心的坐标都在地面真相文件中提供。此信息可用于对齐和裁剪人脸，或作为人脸检测算法的基本事实。该数据集有10524张不同分辨率和不同设置的人脸，例如肖像图像、人群等。侧面人脸或非常低分辨率的人脸没有标签。
MPII人类姿态数据集
类型：姿态估计
数量：40000
数据集下载地址：http://human-pose.mpi-inf.mpg.de/#overview
说明：
MPII 人体姿态数据集是用于评估人体关节姿势估计的最先进基准。该数据集包括大约 25,000 张图像，其中包含超过 40,000 个带有注释身体关节的人。这些图像是使用已建立的人类日常活动分类法系统收集的。总的来说，数据集涵盖了 410 项人类活动，每个图像都提供了一个活动标签。每张图像都是从 YouTube 视频中提取的，并提供前后未注释的帧。此外，测试集有更丰富的注释，包括身体部位遮挡和 3D 躯干和头部方向。
KTH 多视图足球数据集
类型：姿态估计
数量：771
数据集下载地址：https://www.csc.kth.se/~vahidk/football_data.html
说明：
收集了一个带有注释关节的足球运动员数据集，可用于多视图重建。数据集包括：
771张足球运动员的照片
在 257 个时间实例中从 3 个视图中获取的图像
14 个带注释的身体关节
宾夕法尼亚动作数据集
类型：姿态估计
数量：2326
数据集下载地址：http://dreamdragon.github.io/PennAction/
说明：
Penn Action Dataset（宾夕法尼亚大学）包含 15 个不同动作的 2326 个视频序列以及每个序列的人类联合注释。
BBC姿态数据集
类型：姿态估计
数量：20
数据集下载地址：https://www.robots.ox.ac.uk/~vgg/data/pose/index.html#bbcpose
说明：
BBC Pose 包含 20 个视频（每个视频长度为 0.5 小时至 1.5 小时），由 BBC 录制，并配有手语翻译。这 20 个视频分为 10 个用于训练的视频、5 个用于验证的视频和 5 个用于测试的视频。
Poser 数据集
类型：姿态估计
数量：1927
数据集下载地址：https://arxiv.org/abs/1701.01218
说明：
Poser 数据集是用于姿态估计的数据集，由 1927 个训练图像和 418 个测试图像组成。这些图像是综合生成的，并调整为单峰预测。这些图像是使用 Poser 软件包生成的。
野外 3D 姿势数据集
类型：姿态估计
数量：
数据集下载地址：https://virtualhumans.mpi-inf.mpg.de/3DPW/
说明：
野外第一个具有准确 3D 姿势用于评估的数据集，包含从移动摄像头拍摄的视频片段的技术。
数据集包括：60 个视频序列，2D 姿势注释，3D 姿势，序列中每一帧的相机姿势，3D 身体扫描和 3D 人物模型，18 个不同服装款式的 3D 模型。
V-COCO数据集
类型：姿态估计
数量：10346
数据集下载地址： GitHub - s-gupta/v-coco: Hooks for VCOCO
说明：
V-COCO是一个基于 COCO 的数据集，用于人机交互检测。V-COCO 提供 10,346 张图像（2,533 张用于训练，2,867 张用于验证，4,946 张用于测试）和 16,199 个人物实例。每个人都有 29 个动作类别的注释，并且没有包括对象在内的交互标签。
宜家 ASM 数据集
类型：姿态估计
数量：371
数据集下载地址： IKEA Assembly Dataset (ikeaasm.github.io)
说明：
宜家 ASM 数据集是装配任务的多模式和多视图视频数据集，可对人类活动进行丰富的分析和理解。它包含 371 个家具组件样本及其真实注释。每个样本包括 3 个 RGB 视图、一个深度流、原子动作、人体姿势、对象片段、对象跟踪和外部相机校准。
5个装配环境，4种家具类型，3种家具颜色（白色、黑色和橡木色），48个独特的汇编程序，1： 3女性：男性比例，每个部件有3个RGB视图，每个组件1个深度流，33个动作类（动词-对象对）
立体人体姿势估计数据集
类型：姿态估计
数量：630
数据集下载地址： Page not found – Aplicaciones de la Visión Artificial (uco.es)
说明：
这是一个立体图像对数据集，适用于上身人的立体人体姿态估计。SHPED 由 630 个立体图像对（即 1260 个图像）组成，分为 42 个视频片段，每个片段 15 帧。这些剪辑是从 26 个立体视频中提取的，这些视频是从 YouTube 获得的。此外，SHPED 包含 1470 条火柴人上身注释，对应于 49 个人根据这些条件：直立位置、所有上身部分几乎可见以及身体的非侧面视点。
132 AIST++ 舞蹈动作数据集
类型：姿态估计
数量：1010万
数据集下载地址： https://google.github.io/aistplusplus_dataset/factsfigures.html
说明：
AIST++ 舞蹈动作数据集是从 AIST 舞蹈视频数据库构建的。对于多视图视频，设计了一个精心设计的管道来估计相机参数、3D 人体关键点和 3D 人体舞蹈动作序列：
它为 1010 万张图像提供 3D 人体关键点注释和相机参数，涵盖 9 个视图中的 30 个不同主题。这些属性使其成为具有 3D 人体关键点注释的最大和最丰富的现有数据集。它还包含 1,408 个 3D 人类舞蹈动作序列，表示为关节旋转以及根轨迹。舞蹈动作平均分布在 10 种舞蹈流派中，有数百种编舞。运动持续时间从 7.4 秒不等。至 48.0 秒。所有的舞蹈动作都有相应的音乐。
HiEve数据集
类型：姿态估计
数量：
数据集下载地址： Human in Events
说明：
该数据集专注于在各种人群和复杂事件中进行非常具有挑战性和现实性的以人为中心的分析任务，包括地铁上下车、碰撞、战斗和地震逃生。并且具有大规模和密集注释的标签，涵盖了以人为中心的分析中的广泛任务。
该数据集具有大规模且注释密集的标签，涵盖了以人为中心的分析中的广泛任务。
我们的HiEve数据集包括当前最大数量的姿势（>1M）、最大数量的复杂事件动作标签（>56k）以及最大数量的长期轨迹（平均轨迹长度>480）。

12. 自动驾驶（automatic drive）

CrackForest数据集
类型：自动驾驶
数量：
数据集下载地址：https://github.com/cuilimeng/CrackForest
说明：
CrackForest数据集是一个带注释的道路裂缝图像数据库，可以大致反映城市路面状况。
KITTI 道路数据集
类型：自动驾驶
数量：600
数据集下载地址： https://www.cvlibs.net/datasets/kitti/eval_road.php
说明：
道路和车道估计基准包括289次培训和290幅测试图像。我们在鸟瞰空间中评估道路和车道的估计性能。它包含不同类别的道路场景：城市无标记、城市标记、城市多条标记车道以及以上三者的结合。地面实况是通过手动注释图像生成的，可用于两种不同的道路地形类型：道路-道路区域，即所有车道的组成，以及车道-自我车道，即车辆当前行驶的车道。地面实况仅用于训练图像。
KITTI-2015立体声数据集
类型：自动驾驶
数量：400
数据集下载地址： https://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=stereo
说明：
stero 2015 基准测试包含 200 个训练场景和 200 个测试场景（每个场景 4 幅彩色图像，以无损 png 格式保存）。与stereo 2012 和flow 2012 基准测试相比，它包含动态场景，在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到 15 辆汽车和 30 名行人。
KITTI-2015光流数据集
类型：自动驾驶
数量：400
数据集下载地址：http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=flow
说明：
Flow 2015 基准测试包含 200 个训练场景和 200 个测试场景（每个场景 4 幅彩色图像，以无损 png 格式保存）。与stereo 2012 和flow 2012 基准测试相比，它包含动态场景，在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到 15 辆汽车和 30 名行人。
KITTI-2015场景流数据集
类型：自动驾驶
数量：400
数据集下载地址：http://www.cvlibs.net/datasets/kitti/eval_scene_flow.php
说明：
Sceneflow 2015 基准测试包含 200 个训练场景和 200 个测试场景（每个场景 4 幅彩色图像，以无损 png 格式保存）。与stereo 2012 和flow 2012 基准测试相比，它包含动态场景，在半自动过程中为其建立了真值。该数据集是通过在卡尔斯鲁厄中等规模城市、农村地区和高速公路上行驶而捕获的。每张图像最多可以看到 15 辆汽车和 30 名行人。
KITTI深度数据集
类型：自动驾驶
数量：93000
数据集下载地址：http://www.cvlibs.net/datasets/kitti/eval_depth_all.php
说明：
KITTI-depth 包含超过 93,000 个深度图以及相应的原始 LiDaR 扫描和 RGB 图像。鉴于大量的训练数据，该数据集应允许训练复杂的深度学习模型，以完成深度补全和单幅图像深度预测的任务。此外，该数据集提供了带有未发布深度图的手动选择图像，作为这两个具有挑战性的任务的基准。
城市景观图像对数据集
类型：自动驾驶
数量：2975
数据集下载地址：https://www.kaggle.com/datasets/dansbecker/cityscapes-image-pairs
说明：
城市景观数据（数据集主页）包含从德国驾驶的车辆中拍摄的标记视频。此版本是作为 Pix2Pix 论文的一部分创建的已处理子样本。数据集包含来自原始视频的静止图像，语义分割标签与原始图像一起显示在图像中。这是语义分割任务的最佳数据集之一。
该数据集有 2975 个训练图像文件和 500 个验证图像文件。每个图像文件为 256x512 像素，每个文件是与图像左半部分的原始照片以及右半部分的标记图像（语义分割的输出）的合成。
自动驾驶汽车语义分割数据集
类型：自动驾驶
数量：5000
数据集下载地址：https://www.kaggle.com/datasets/kumaresanmanickavelu/lyft-udacity-challenge
说明：
该数据集提供通过 CARLA 自动驾驶汽车模拟器捕获的数据图像和标记语义分割。这些数据是作为 Lyft Udacity Challenge 的一部分生成的。该数据集可用于训练 ML 算法以识别图像中汽车、道路等的语义分割。
数据有5组1000张图片和对应的标签。
道路自动驾驶汽车数据集
类型：自动驾驶
数量：
数据集下载地址：https://www.kaggle.com/datasets/ananduthaman/self-driving-car-on-indian-roads
说明：
该数据集为自动驾驶车辆提供了易于使用的训练数据。提供驾驶视频中每一帧对应的转向角、加速度、刹车和档位。这段视频是使用安装在汽车挡风玻璃上的摄像头录制的，该汽车沿着印度喀拉拉邦的道路行驶。
驾驶模拟器车道检测数据集
类型：自动驾驶
数量：
数据集下载地址：https://www.kaggle.com/datasets/thomasfermi/lane-detection-for-carla-driving-simulator
说明：
该数据集由 Carla 驾驶模拟器生成的图像组成。训练图像是由安装在模拟车辆中的行车记录仪捕获的图像。标签图像是分割掩码。标签图像将每个像素分类为：左侧车道边界的和右侧车道边界。与该数据集相关的挑战是训练一个能够准确预测验证数据集的分割掩码的模型。
雷达场景数据集
类型：自动驾驶
数量：
数据集下载地址：https://www.kaggle.com/datasets/aleksandrdubrovin/the-radarscenes-data-set
说明：
RadarScenes 数据集包含来自四个汽车雷达传感器的记录，这些传感器安装在一辆测量车辆上。添加了来自一台前置纪实相机的图像。它于 2016 年至 2018 年在德国乌尔姆录制。该数据集的长度超过 4 小时，除了来自雷达传感器的点云数据外，还提供了 12 个不同类别的逐点语义注释。除了逐点类标签外，跟踪 ID 还附加到动态对象的每个单独检测，以便可以随时间跟踪各个对象。
LiDAR 2D深度图像数据集
类型：自动驾驶
数量：
数据集下载地址：https://www.kaggle.com/datasets/ahmedfawzyelaraby/kitti-lidar-based-2d-depth-images
说明：
该数据集包含 2D 深度图像，如下图所示。像 KITTI 数据集中的 360 度 LiDAR 框架在传感器本身周围呈圆柱形。该数据集中的 2D 深度图像可以表示为您在 LiDAR 框架的圆柱体上进行了切割并将其拉直以位于 2D 平面中。这些 2D 深度图像的像素代表反射物体与 LiDAR 传感器的距离。 2D 深度图像的垂直分辨率（在我们的例子中为 64）表示用于扫描周围环境的 LiDAR 传感器的激光束数量。这些 2D 深度图像代表相应 LiDAR 帧的相同场景，但格式更易于处理，可用于分割、检测、识别等任务，并且可以利用计算机视觉关于 2D 图像的大量文献。
昼夜行人序列数据集
类型：自动驾驶
数量：7000
数据集下载地址：http://adas.cvc.uab.es/elektra/enigma-portfolio/cvc-14-visible-fir-day-night-pedestrian-sequence-dataset/
说明：
数据集由两组序列组成。这些序列被命名为白天和夜晚集，指的是它们被获取的一天中的时刻，Visible和 FIR 取决于用户记录序列的相机。白天训练 3695 个 imegas，晚上训练 3390 个图像，每个序列大约有 1500 个强制性行人注释。用于测试两个序列的约 700 张图像，白天约有 2000 名行人，夜间约有 1500 名行人
RSCD自动驾驶路面图像分类数据集
类型：自动驾驶
数量：1000000
数据集下载地址：https://github.com/ztsrxh/RSCD-Road_Surface_Classification_Dataset
说明：
实车采集、手工标注并发布了该路面图像分类数据集（RSCD），提供路面附着水平、不平度及材质的全状态详细标注信息，共包含约100万张图片。覆盖了不同季节、天气、路况及材质状态下的约 700 公里的道路。
为实现精细化的路面状态感知，将原始图片的路面区域裁剪成360*240大小的图像块，并进行手动标注。
148.nuScence
类型：自动驾驶
数量：1,166,187
数据集下载地址：https://www.nuscenes.org/nuscenes
说明：
2019年3月，发布了包含所有1000个场景的完整nuScenes数据集。完整的数据集包括大约1.4M个相机图像、390k个激光雷达扫描、1.4M个雷达扫描和1.4M个对象边界框（40k个关键帧）。其他功能（地图图层、原始传感器数据等）即将推出。我们还将组织nuScenes 3D检测挑战，作为2019年CVPR自动驾驶研讨会的一部分。
nuScenes数据集受到了开创性的KITTI数据集的启发。nuScenes是第一个提供自动驾驶车辆整个传感器套件（6个摄像头、1个激光雷达、5个雷达、GPS、IMU）数据的大型数据集。与KITTI相比，nuScenes包含7倍以上的对象注释。
尽管之前发布的大多数数据集中于基于摄像机的目标检测（Cityscapes、Mapillary Vistas、Apolloscapes和Berkeley Deep Drive），nuScenes的目标是查看整个传感器套件。
2020年7月，我们发布了nuScenes激光雷达。在nuScenes lidarseg中，使用32个可能的语义标签（即激光雷达语义分割）之一从nuScene中的关键帧注释每个激光雷达点。因此，nuScenes lidarseg在40000个点云和1000个场景中包含14亿个注释点（850个场景用于培训和验证，150个场景用于测试）。

13. RGB-T

HFUT-Lytro数据集
类型：RGBT
数量：
数据集下载地址：https://dl.acm.org/doi/10.1145/3107956
说明：15000
由255个光场组成，每个光场图像生成的图像范围从53到64个，其中跨越了多个显著性检测挑战，如遮挡、杂乱背景和外观变化。
DUTLF-V2
类型：RGBT
数量：4200
数据集下载地址：https://github.com/OIPLab-DUT/DUTLF-V2
说明：
由于具有强大的三维信息捕捉能力，光场数据为显著性检测算法提供了更为有力的支持。
多功能数据集，其中包含了102类目标、共4202个样本，可以有效支持基于RGB、RGB-D和光场数据的显著性检测算法。
ReDWeb-S
类型：RGBT
数量：3200
数据集下载地址：https://github.com/nnizhang/SMAC
说明：
它共有 3179 张图像，具有各种真实世界场景和高质量的深度图。我们将数据集分成包含 2179 个 RGB-D 图像对的训练集和包含剩余 1000 个图像对的测试集。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/85466