赞
踩
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120592294
目录
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
数据集通常由样本的特征数据和样本的标签数据组成。
在有监督(supervise)的机器学习中,数据集常被分成3种,即:训练集(train set),验证集(validation set),测试集(test set)。
(1)训练(样本)集
作用:模型训练
训练(样本)集又称为学习样本集,用于调整对当前的模型,对模型进行训练。
目的:学习材料
训练的过程,调整模型的参数,使得模型的输出尽可能的与训练数据集中的样本数据接近、尽可能的拟合训练样本数据集中的数据。
(2)验证集
作用:用于判断模型的拟合程度
对实时学习的效果进行评估和考核,以决定是否需要进一步的学习和训练,同时决定是否需要调制超参数。
(3)测试数据集
作用:检验最终选择最优的模型的性能如何
主要是测试训练好的模型的分辨能力(识别率等)、泛化能力。
数据集对于机器学习的重要性,在机器学习应用领域,不亚于机器学习的模型本身。
在现在的机器学习应用领域,机器学习的模型大多是公开的、通用的。
虽然网络上提供的大量的、免费的、公开数据集,但针对于一些特定行业的特定应用,数据集可以说是一个公司最核心的资源,决定了公司的核心价值。
(1)公开免费数据集
网络上有大量的经过标签化后的公开免费数据集,这些数据集对于解决一些通用的应用,起着非常大的作用,节省了程序员和应用方大量采集数据和标签数据的成本。
我们在学习机器学习、深度学习中用到的数据集,通常来源于网络上提供的公开免费数据集。
这是我们学习《机器学习或深度学习》获取数据集最主要的途径。
!!!后续学习中用到的各种数据集,基本上来自于这部分。
(2)私有收费数据集
有些公司,由于特殊领域的数据,他们负责采集数据、对数据进行标签,并通过有偿提供专有数据进行盈利。
(3)私有保密数据
有些数据,对于有些公司,数据是公司最核心的资源和价值,丧失了这些数据就丧失了公司的核心价值,因此,这些数据是不能对外的,不能出卖给第三方的,如滴滴客户数据,淘宝的客户数据等。
(4)自定义数据集
对于个人,自定义数据集的成本偏高,甚至是不可能完成的任务。
而自定义数据集,对于某些公司而言,有是必须做的,对于某些特定的应用,没有现成的数据集,因此需要自己构建自己的数据集。
网址:http://www.kaggle.com/datasets
每个数据集都有对应的一个小型社区,你可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。
该网站包含大量形状、大小、格式各异的真实数据集。
你还可以看到与每个数据集相关的“内核”,其中许多不同的数据科学家提供了笔记来分析数据集。
有时在某些特定的数据集中,你可以从笔记中找到相应的算法,解决预测问题。
网址:https://registry.opendata.aws
该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。
它也有一个搜索框来帮助你找到你正在寻找的数据集,另外它还有数据集描述和使用示例,这是非常简单、实用的!
网址:https://archive.ics.uci.edu/ml/datasets.html
这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。它根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归或者是推荐系统的数据集。UCI的某些数据集已经更新完毕并准备使用。
网址:https://toolbox.google.com/datasetsearch
在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务。它是一个可以按名称搜索数据集的工具箱。谷歌的目标是统一成千上万个不同的数据集存储库,使这些数据能够被发现。
2018年7月,微软与外部研究社区共同宣布推出“微软研究开放数据”。
它在公共云中包含一个数据存储库,用于促进全球研究社区之间的协作。另外它还提供了一组在已发表的研究中使用的、经过整理的数据集。
网址:https://github.com/awesomedata/awesome-public-datasets
这是一个按照主题分类的,由社区公开维护的一系列数据集清单,比如生物学、经济学、教育学等。这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,你应该检查相应的许可要求。
政府的相关数据集也很容易找到。许多国家为了提高知名度,向公众分享了各种数据集。例如:
如果你从事图像处理、计算机视觉或者是深度学习,那么这应该是你的实验获取数据的重要来源之一。
该数据集包含一些可以用来构建计算机视觉(CV)模型的大型数据集。你可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。
综上所述,从我所观察到的情况来看,越来越多的用于研究机器学习的各种数据集变得更容易获取,维护这些新数据集的社区,也将不断地发展,使计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客
本文网址:https://blog.csdn.net/HiWangWenBing/article/details/120592294
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。