一、免费大数据存储库的网站
1、深度学习数据集收集网站
http://deeplearning.net/datasets/**
收集大量的各深度学习相关的数据集,但并不是所有开源的数据集都能在上面找到相关信息。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像,CIFAR-10和CIFAR-100便是从中挑选的。
3、CoPhIR
http://cophir.isti.cnr.it/whatis.html
雅虎发布的超大Flickr数据集,包含1亿多张图片。
4、MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr数据集中挑选出的100万图像集。
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr的一个子集,包含100万的图像集。
6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27万的图像集。
7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
机器标注的一个超大规模数据集,包含2亿图像。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13万的图像的数据集。
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100万的图像,23000视频;微软亚洲研究院出品,质量应该有保障。
10、其它:
Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。
Common crawl:所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。
EDRM File Formats Data Set:由381个文件夹200种文件格式组成。
Apache Mahout:有许多免费的和付费的语料库语料。
EDRM Enron Email Data Set v2:由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。
ClueWeb09:用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。
DMOZ:最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。
theinfo.org:这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。
Project Gutenberg:提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。
Million song data set:与tracks 和艺术家有关的数据。
AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。
BigML big list of public data sources。
Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。
Bitly 1.usa.gov data:匿名点击政府链接。
Canada Open Data:有许多政府和地理空间的数据集的试点项目。
Canada Open Data:许多政府和地理空间数据集的试点项目。
Causality Workbench:数据存储库。
Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。
Data Source Handbook:公开数据指南。
Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据。
Data.gov.uk:英国的公共可用数据(London datastore也是)。
Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。
DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。
Datamob:可以很好利用的公开数据。
DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心。
DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。
EconData:大量经济学的时间序列,由许多美国政府机构编制。
Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员。
Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。
FEDSTATS:一个美国统计资料的综合资源。
FIMI repository for frequent itemset mining:工具和数据集。
Financial Data Finder at OSU:大型财务数据集目录。
GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”。
GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。
GeoDa Center:地理和空间数据。
Google ngrams datasets:来自数Google扫描的百万书籍文本。
Grain Market Research:财务数据,包括股票、期货等。
Hilary Mason research-quality Big Data sets:收集许多文本和图片数据集。
HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。
ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文。
Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。
Investor Links:包含财物数据。
KDD Cup center:数据、工作表和结果。
Kevin Chai list of datasets:文本、SNA和其他领域。
KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。
Linking Open Data 工程:免费向所有人提供数据。
MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究。
ML Data:欧盟Pascal2网络数据储存库。
NASDAQ Data Store:提供市场数据。
National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。
National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。
Open Data Census:评估世界各地的开放数据的状态。
OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐。
Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球。
Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库。
Quandl:a collaboratively curated portal to millions of financial and economic time-series datasets。
qunb:一个用来发现和可视化的数据资料的平台。
Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据。
SMD: Stanford Microarray Database:存储来自微阵列实验的原始的和标准的数据。
Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据。
SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。
StatLib:卡内基梅隆大学数据档案。
STATOO Datasets part 1和 STATOO Datasets part 2。
Time Series Data Library。
Visual Analytics Benchmark Repository。
UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集。
UCI Machine Learning Repository。
UCR Time Series Data Archive:提供数据集、论文、链接和代码。
United States Census Bureau。
Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据。
Wolfram Alpha disease and patient level dat。
Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛。
Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究。
二、深度学习视觉领域常用数据集
1.MNIST - 手写数字数据库
介绍:有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。此数据集以二进制存储,不能直接以图像格式查看,但很容易用图像格式转换工具转换为图片。
最早模型:深度卷积神经网络LeNet。
数据集大小:约12MB。
下载地址:http://yann.lecun.com/exdb/mnist/index.html。
2.Imagenet - 图像分类、定位、检测任务数据集
介绍:
Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,具体信息如下: 1)Total number of non-empty synsets: 21841 2)Total number of images: 14,197,122 3)Number of images with bounding box annotations: 1,034,908 4)Number of synsets with SIFT features: 1000 5)Number of images with SIFT features: 1.2 million
经典模型:Hinton:ImageNet Classification with Deep Convolutional Neural Networks. 2012(AlexNet)。
比赛:ImageNet国际计算机视觉挑战赛ILSVRC(2017年后不再举办)。
数据集大小:约1TB(ILSVRC2016)。
下载地址:http://www.image-net.org/about-stats。
3.COCO(Common Objects in Context) - 图像识别、分割和图像语义数据集
介绍:
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述。 1)Object segmentation 2)Recognition in Context 3)Multiple objects per image 4)More than 300,000 images 5)More than 2 Million instances 6)80 object categories 7)5 captions per image 8)Keypoints on 100,000 people
经典模型:图说生成模型Show and Tell。
数据集大小:约40GB。
下载地址:http://mscoco.org/。
4.PASCAL VOC - 视觉对象的分类识别和检测的基准测试集
介绍:PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。其图像质量好,标注完备,非常适合用来测试算法性能。
比赛:PASCAL VOC挑战赛,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统(2012年后不再举办)。
数据集大小:约2GB。
下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html。
5.CIFAR - 图像分类中小规模数据集
介绍:
CIFAR-10:包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。 CIFAR-100:与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。 图像类别均有明确标注。
数据集大小:约170MB。
下载地址:http://www.cs.toronto.edu/~kriz/cifar.html。
6. Open Images - 标注图片数据集
从系统自动为图片生成图说,再到能对分享的图片进行自然语言回复的APP,这些进步大多数都要归功于公共可用的图像数据集,比如用于监督学习的 ImageNet 和COCO,以及用于非监督学习的YFCC100M。
介绍:包含了900万张图像URL的数据集,图像全都是标签数据,平均每一张图像约8个标签,标签种类超过6000种,比ImageNet(1000类)包含更真实生活的实体存在。由谷歌、CMU和康奈尔大学联合研究。
经典模型:Inception v3 模型。
数据集大小:约1.5GB(不包括图片)。
下载地址:https://github.com/openimages/dataset。
7.Youtube-8M - 视频数据集
介绍:谷歌开源。视频来自Youtube,共计8百万个视频,总时长50万小时,4800类。为了保证标签视频数据库的稳定性和质量,谷歌只采用浏览量超过1000的公共视频资源。为了让受计算机资源所限的研究者和学生也可以用上这一数据库,谷歌对视频进行了预处理,并提取了帧级别的特征,提取的特征被压缩到可以放到一个硬盘中(小于1.5T)。
数据集大小:约1.5TB。
下载地址:https://research.google.com/youtube8m/。
三、数据获取
1.公开的数据库
- 国家数据 - http://data.stats.gov.cn/index.htm
数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面和权威,对于社会科学的研究不要太有帮助。网站还有专门的可视化读物。
- CEIC - http://www.ceicdata.com/zh-hans
最完整的一套超过128个国家的经济数据,能够精确查找GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
- wind(万得)- http://www.wind.com.cn/
万得被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。
- 搜数网 - http://www.soshoo.com/
已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。
- 中国统计信息网 - http://www.tjcn.org/
国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。
- 亚马逊aws - http://aws.amazon.com/cn/datasets/?nc1=h_ls
来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。
- figshare - https://figshare.com/
研究成果共享平台,在这里你会发现来自世界的大牛们的研究成果分享,同时get其中的研究数据,内容很有启发性,网站颇具设计感。
- github - https://github.com/caesar0301/awesome-public-datasets
Github上整理了一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面。
2.数据交易平台
- 优易数据 - http://www.youedata.com/
由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。
- 数据堂 - http://www.datatang.com/
专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。
3.网络指数
- 百度指数 - http://index.baidu.com/
指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。
- 阿里指数 - https://alizs.taobao.com/
国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。
- 艾瑞咨询 - http://www.iresearch.com.cn/
艾瑞作为老牌的互联网研究机构,在数据的沉淀和数据分析上都有得天独厚的优势,在互联网的趋势和行业发展数据分析上面比较权威,艾瑞的互联网分析报告可以说是互联网研究的必读刊物。
- 友盟指数 - http://www.umeng.com/
友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。
- 爱奇艺指数 - http://index.iqiyi.com/
爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。
- 猫眼专业版- http://piaofang.maoyan.com/
电影票房统计分析平台,猫眼专业版有实时的票房统计,影片的排盘情况、上座率和影院数据,对于当前电影的分析是必不可少的。
4.网络采集器
- 火车采集器 - http://www.locoy.com/
一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据,最常用的就是采集某些网站的文字、图片、数据等在线资源。接口比较齐全,支持的扩展比较好用,懂代码的话,可以使用PHP或C#开发任意功能的扩展。
- 八爪鱼 - http://www.bazhuayu.com/
简单实用的采集器,功能齐全,操作简单,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。
5.网络爬虫
数据收集时,爬虫高度的自由性、自主性都使其成为数据挖掘的必备技能,当然精通python等语言是必要前提。
- 利用爬虫爬取网络图片 -
需要某个网站上的图片时,单个下载太麻烦,可以利用爬虫快速地进行抓取,并可以根据标签、特征、颜色等信息进行分类储存。
- 利用爬虫爬取高质量资源 -
搜集高质量的网络资源时,人工查找比较麻烦,利用爬虫就可以轻松解决。比如爬取知乎点赞最多的文章列表,爬取网易云音乐评论最多的音乐,爬取豆瓣网高评分的电影或图书,等等。
- 利用爬虫获取舆情数据 -
可以批量爬取社交平台的数据资源,可以爬取网站的交易数据,爬取招聘网站的职位信息等,可以用于个性化的分析研究。
6.小工具
- Web Plot Digitizer - http://arohatgi.info/WebPlotDigitizer/app/
在查看期刊文献时看到一张成型的图表,但其本身数据有缺失而想获得这个图表的相关数据,可以用该工具直接上传需要获得数据的图表,然后就会获得数据反馈,对于一些不需要十分精确的分析研究足够使用。
- you-get - https://you-get.org/
该工具基于python 3开发,已经在github上面开源,支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米,即使是名单上没有的网站,当你输入链接,程序也会猜测你想要下载什么,然后帮你下载,比如下载优酷视频或批量下载图片。
当然you-get要在python3环境下进行安装,用pip安装好后,在终端输入“you get+你想下载资源的链接”就可以下载资源了。
7.数据导航
- 199IT大数据导航 - http://hao.199it.com/
- 数据分析网导航 - http://www.afenxi.com/hao
- 大数据人导航 - http://hao.bigdata.ren/