当前位置:   article > 正文

[人工智能-深度学习-18]:神经网络基础 - 模型训练 - 监督式学习常见学习材料:训练数据集、验证数据集、测试数据集_数据集的来源和特征

数据集的来源和特征

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

 

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120592294


目录

第1章 数据集概述

1.1 什么是数据集

1.2 数据集的组成

1.3 监督式机器学数据集的分类

1.4 数据集对于机器学习的重要性

1.5 数据集的来源

第2章 常见的数据集

2.1 -Kaggle数据集

2.2 -亚马逊数据集

2.3 -UCI机器学习库:

2.4-谷歌的数据集搜索引擎:

2.5 -微软数据集:

2.6-Awesome公共数据集:

2.7 -政府数据集:

2.8-计算机视觉数据集:


第1章 数据集概述

1.1 什么是数据集

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

1.2 数据集的组成

数据集通常由样本的特征数据和样本的标签数据组成。

  • 特征数据:采集样本数据
  • 标签数据:对样本数据进行人工或自动打标签,表明数据类别、位置。

1.3 监督式机器学数据集的分类

在有监督(supervise)的机器学习中,数据集常被分成3种,即:训练集(train set),验证集(validation set),测试集(test set)。

(1)训练(样本)集

作用:模型训练

训练(样本)集又称为学习样本集,用于调整对当前的模型,对模型进行训练。

目的:学习材料

训练的过程,调整模型的参数,使得模型的输出尽可能的与训练数据集中的样本数据接近、尽可能的拟合训练样本数据集中的数据。

(2)验证集

作用:用于判断模型的拟合程度

对实时学习的效果进行评估和考核,以决定是否需要进一步的学习和训练,同时决定是否需要调制超参数。

(3)测试数据集

作用:检验最终选择最优的模型的性能如何

主要是测试训练好的模型的分辨能力(识别率等)、泛化能力。

1.4 数据集对于机器学习的重要性

数据集对于机器学习的重要性,在机器学习应用领域,不亚于机器学习的模型本身。

在现在的机器学习应用领域,机器学习的模型大多是公开的、通用的。

虽然网络上提供的大量的、免费的、公开数据集,但针对于一些特定行业的特定应用,数据集可以说是一个公司最核心的资源,决定了公司的核心价值。

1.5 数据集的来源

(1)公开免费数据集

网络上有大量的经过标签化后的公开免费数据集,这些数据集对于解决一些通用的应用,起着非常大的作用,节省了程序员和应用方大量采集数据和标签数据的成本。

我们在学习机器学习、深度学习中用到的数据集,通常来源于网络上提供的公开免费数据集。

这是我们学习《机器学习或深度学习》获取数据集最主要的途径。

!!!后续学习中用到的各种数据集,基本上来自于这部分。

(2)私有收费数据集

有些公司,由于特殊领域的数据,他们负责采集数据、对数据进行标签,并通过有偿提供专有数据进行盈利。

(3)私有保密数据

有些数据,对于有些公司,数据是公司最核心的资源和价值,丧失了这些数据就丧失了公司的核心价值,因此,这些数据是不能对外的,不能出卖给第三方的,如滴滴客户数据,淘宝的客户数据等。

(4)自定义数据集

对于个人,自定义数据集的成本偏高,甚至是不可能完成的任务。

而自定义数据集,对于某些公司而言,有是必须做的,对于某些特定的应用,没有现成的数据集,因此需要自己构建自己的数据集。

第2章 常见的数据集

2.1 -Kaggle数据集

网址:http://www.kaggle.com/datasets

每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。

该网站包含大量形状、大小、格式各异的真实数据集。

你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。

有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。

2.2 -亚马逊数据集

网址:https://registry.opendata.aws

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!

2.3 -UCI机器学习库:

网址:https://archive.ics.uci.edu/ml/datasets.html

这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。

2.4-谷歌的数据集搜索引擎:

网址:https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。

2.5 -微软数据集:

网址:https://msropendata.com

2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。

它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。

2.6-Awesome公共数据集:

网址:https://github.com/awesomedata/awesome-public-datasets

这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。

2.7 -政府数据集:

政府的相关数据集也很容易找到。许多国家为了提高知名度,向公众分享了各种数据集。例如:

欧盟开放数据门户:欧洲政府数据集

新西兰政府数据集

印度政府数据集

2.8-计算机视觉数据集:

网址:https://www.visualdata.io

如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。

该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。


作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客

本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120592294

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/337776
推荐阅读
相关标签
  

闽ICP备14008679号