赞
踩
Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,可以提供一些数据,进而提出一个实际需要解决的问题;从参赛者的角度来讲,他们将组队参与项目,针对其中一个问题提出解决方案,最终由公司选出的最佳方案可以获得5K-10K美金的奖金。除此之外,Kaggle官方每年还会举办一次大规模的竞赛,奖金高达一百万美金,吸引了广大的数据科学爱好者参与其中。从某种角度来讲,可以把它理解为一个众包平台,类似国内的猪八戒。但是不同于传统的低层次劳动力需求,Kaggle一直致力于解决业界难题,因此也创造了一种全新的劳动力市场——不再以学历和工作经验作为唯一的人才评判标准,而是着眼于个人技能,为顶尖人才和公司之间搭建了一座桥梁。
输入https://www.kaggle.com/即可进入Kaggle主页,网站有这么几个版块:
总结的原因如下:
Kaggle上的竞赛有各种分类,例如奖金极高竞争激烈的的 “Featured”,相对平民化的 “Research”等等。但整体的项目模式是一样的,就是通过出题方给予的训练集建立模型,再利用测试集算出结果用来评比。同时,每个进行中的竞赛项目都会显示剩余时间、参与的队伍数量以及奖金金额,并且会实时更新选手排位。在截止日期之前,所有队伍都可以自由加入竞赛,或者对已经提交的方案进行完善,因此排名也会不断变动,不到最后一刻谁都不知道花落谁家。
由于这类问题并没有标准答案,只有无限逼近最优解,所以这样的模式可以激励参与者提出更好的方案,甚至推动整个行业的发展。
kaggle竞赛分类:
从参赛者的角度看,竞赛种类有:推荐比赛Featured、人才征募Recruitment、研究型Research、游乐场Playground、入门比赛Getting Started、课业比赛In Class
kaggle竞赛的排名机制:
在比赛结束之前,参赛者每天最多可以提交5次测试集的预测结果。每一次提交结果都会获得最新的临时排名成绩,直至比赛结束获得最终排名。在比赛过程中,Kaggle将参赛者每次提交的结果取出25%-33%,并依照准确率进行临时排名。在比赛结束时,参赛者可以指定几个已经提交的结果,Kaggle从中去除之前用于临时排名的部分,用剩余数据的准确率综合得到最终排名。所以,比赛过程中用于最终排名的那部分数据,参赛者是始终得不到关于准确率的反馈的。这样一定程度避免参赛模型的过拟合,保证评选出兼顾准确率和泛化能力的模型
Kaggle 比赛奖金丰厚,一般前三名均可以获得奖金。在最近落幕的第二届 National Data Science Bowl 中,总奖金池高达 100W 美刀,其中第一名可以获得 50W 美刀的奖励,即使是第十名也能收获 2.5W 美刀的奖金。
获奖的队伍需要在比赛结束后 1~2 周内,准备好可执行的代码以及 README,算法说明文档等提交给 Kaggle 来进行获奖资格的审核。Kaggle 会邀请获奖队伍在 Kaggle Blog 中发表 Interview,来分享比赛故事和经验心得。对于某些比赛,Kaggle 或者主办方会邀请获奖队伍进行电话/视频会议,获奖队伍进行 Presentation,并与主办方团队进行交流。
总结:
天池大数据竞赛是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。通过开放海量数据和分布式计算资源,大赛让所有参与者有机会运用其设计的算法解决各类社会问题或业务问题。特别优秀的解决方案将有机会直接上线阿里巴巴旗下各电商网站(含淘宝、天猫等)或第三方合作伙伴平台,服务中国乃至世界数以亿计的用户。
2014年3月,阿里巴巴集团董事局主席马云在北京大学发起“天池大数据竞赛”。首届大赛共有来自全球的7276支队伍参赛,海外参赛队伍超过148支。阿里巴巴集团为此开放了5.7亿条经过严格脱敏处理的数据。2014年赛季的数据提供方为贵阳市政府,参赛者根据交通数据模拟控制红绿灯时间,寻找减轻道路拥堵的方法。
应用意义:
大数据专家、阿里巴巴集团副总裁涂子沛介绍,比赛中胜出的优秀数据模型,不仅可用于参赛者的学术研究成果,还有机会走出实验室,直接应用于淘宝、支付宝等真实的商业场景,影响中国乃至世界数以亿计的用户。在此前的“天猫推荐算法大赛”中,6名90后大学生研发的个性化推荐算法,在“双11”当天的实战效果超过天猫原有算法的16.9%,赢得100万元奖金。
涂子沛说,数据经济的时代正在到来,中国2015年拥有的数据量占全球的14%,到2020年这一比例将上升至21%。但我们的数据利用率不到0.4%,更多的数据仍然沉睡在各个角落。中国需要有效的数据处理方法,更需要大数据人才。阿里云天池大赛将成为一个数据众智众创平台,吸引更多政府、公司开放数据资源,创新数据商业模式,引爆新生代力量和数据经济的能量.
华为大数据比赛是华为举办的一系列与大数据应用相关的比赛,每次比赛的内容不同,名字也不同,所以在这里统一叫为华为的大数据比赛。华为的大数据比赛相比于其他平台的大数据比赛,主题更加贴近人们的生活,其中不免有许多智能硬件相关。
遵循“以用为先、以用为要”的原则,着力解决政府工作中的难点和人民群众生活中的热点问题,服务社会、服务民生,围绕互联网+及智慧企业、智慧医疗、智慧教育、智慧交通、智慧环保、智慧社区等领域,结合政府、企业和社会开放的数据,进行挖掘分析,重点是大数据应用实践创新。
华为作为一家世界前500强企业,其产业规模之大,生态链非常完整。在整个公司运营中会产生大量的数据,这些数据是对于公司的运营非常有用的;同时,华为还致力于为其他公司提供软件硬件上的智能解决方案,也需要对数据进行分析。所以才有华为大数据比赛。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。