赞
踩
Kaggle是一个大型的国际数据科学平台,不仅有有趣的数据挖掘深度学习等比赛,还有社交、云服务等有趣的功能。(Kaggle的kernel相当于给了一个免费GPU服务器给用户,在国内不科学上网不能进入Colab等性价比高的云服务器的情况下,无疑是很好的替代选择,Kaggle国内可以访问。)
Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,通过真实的企业数据,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5000-10000美金的奖金。而且,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。(Kaggle目前已经被Google收购)
Kaggle是世界上认可度最高的数据科学竞赛平台,其Grand Master头衔极大的代表了自身的能力。(类似的数据科学竞赛平台有阿里天池、Data Castle等,但其功能并没有Kaggle这么完善和丰富。)
Kaggle的每个竞赛都有类别等级,方便用户选择合适的比赛。
一般认为,Kaggle的比赛分为两个走向,ML(传统机器学习)和DL(深度学习)Kaggle玩家一般认为,这是“Kaggle的两个世界”。其中,最关键的区别在于是否很消耗GPU算力。这两类比赛没有上下之分,只是不同领域的交集不多罢了。当然也有很强的人两类比赛都游刃有余,但是大多数人还是倾向于一类比赛的。大体上,按照内容可以分为下面三大类。
Kaggle将参赛者每次提交的结果取出一部分(25%-33%),并依照准确率进行临时排名。
参赛者每天最多可以提交5次测试集的预测结果。每一次提交结果都会更新实时排名成绩,直至比赛结束获得最终排名。
参赛者可以指定几个已经提交的结果,Kaggle从中去除之前用于临时排名的部分,用剩余数据的准确率综合得到最终排名。
这里的Kernel说白了就类似于一个可以在浏览器上间接(本质上是在Kaggle的GPU服务器上)运行的一个Python或者R的环境,这个环境里包含了我们基本需要的各种软件,当然我们也可以自己去安装一些软件,然后去运行我们的训练程序。类似于Google Colab,但是国内可以访问。而且提供免费GPU,确实很良心了。
注意:使用GPU需要开启GPU,下载网络数据或者安装其他包(一般不需要)需要开启网络权限,第一次开启要验证手机号(国内860加手机号)。
使用Kernel之前要创建一个环境,如下。进入Notebooks板块,点击新建notebook。
选择使用的语言(Python或R)及环境形式(notebook或script)。
Kaggle还是对Jupyter Notebook进行了封装,使用的大部分方法一致。顶部命名文件,右侧有环境的状态。
几个注意
本文介绍了一下Kaggle的平台及其使用方式。博客已经同步至我的个人博客网站,欢迎访问查看最新文章。如有错误或者疏漏之处,欢迎指正。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。