当前位置:   article > 正文

《2020年度中国数据竞赛年鉴》发布!

廖泽龙 python

 Datawhale发布 

2020 中国数据竞赛年鉴报告

随着信息时代的发展,数据智能正逐渐渗透到生产、生活等方方面面,如何培养数据人才,促进产学研用协同发展,数据竞赛给出了一条清晰的路径。数据竞赛以真实业务问题为导向,聚合广泛的、跨学科的数据人才的参与,通过开放式创新研发模式探索解决方案,激发创新方案设计和产品原型开发,通过挖掘数据价值的场景和树立“数据+算力+人才+算法”的价值闭环,助力产学研用深入融合。

前言

1997 年由国际顶级学术会议 KDD(Conference on Knowledge Discovery and Data Mining,知识发现和数据挖掘会议)推出的 KDD Cup,拉开了全球数据竞赛的序幕。国际顶会所举办的数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下前沿技术与数据应用中的矛盾点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于 2010 年的 Kaggle 作为目前全球最大的数据科学技术分享社区,更是为数据竞赛的平台化发展奠定了模式化基础。纵观中国市场,数据竞赛自 2014 年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“大众创业、万众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型数据竞赛。

由此,Datawhale发起《2020年度中国数据竞赛年鉴》,联合国内外头部的竞赛平台、头部竞赛选手,同时有 2039 位竞赛选手参与,回收了 1,022 份高质量问卷,共同完成这份反映竞赛人才需求和竞赛生态现状的年鉴报告。帮助大家了解竞赛全貌,提供清晰入门路径,开源竞赛知识点和Top方案分享,让更多人有机会参与到数据竞赛中,以加速数据人才的培养与发展。

年鉴目录

高清完整版:后台回复“竞赛年鉴”可获取

第一章:数据竞赛人才现状

1.1 地域分布:广东、江苏、上海位居Top3

调研结果显示,五成以上数据竞赛人才集中在京津冀、长三角、珠三角,广东省竞赛人才最多,长江中游与成渝地区整体人才分布集中度较高。在城市维度上看,一线城市北上广深依然领跑,而南京、武汉、杭州、成都作为新一线城市的代表,也汇聚大量数据竞赛人才,这前八名城市拥有的数据竞赛人才总和超过全国的36%。

人才地域分布情况

人才省份分布情况

人才城市分布情况

1.2 专业与行业分布:理工科硕士为主


1.2.1 学历专业背景

数据竞赛的人才门槛相对较高,在学历背景方面,硕博人才占比高达60%,本科人才占比37.88%。在人才专业情况方面,其中87%左右的数据竞赛人才来自于理工科背景,同也有超过 10%的竞赛人才来自经济学、管理学专业。

1.2.2 行业职业背景

在行业分布方面,数据竞赛作为产学结合的典型项目,学生是竞赛人才的主力,占比约64%,在职人员多数将数据竞赛作为技能练兵场和兴趣俱乐部,主要人群为IT及相关行业的工作者,以及从事金融、咨询等与数据相关方面的工作者。

人才背景情况

第二章:人才诉求意愿

2.1 人才诉求分布相对一致

通过面向逾千名数据竞赛人才的调研中,依据竞赛参与次数将数据竞赛人才划分为竞赛新手,竞赛熟手与竞赛老手,竞赛新手占比62%,竞赛熟手占比25%,竞赛老手占比13%,根据在数据竞赛中的排名表现,将竞赛人才分为黄金玩家,白银玩家与青铜玩家三大类,黄金玩家占比26%,白银玩家占比42%,青铜玩家占比32%。

人才参赛次数与名次分布情况

在参与竞赛的诉求方面,不同层次的玩家分布上有相当的一致性,但也在某些具体内容上有更多差异,提升专业技能是大家公认的最大诉求,黄金玩家在工作/实习机会和获取赛事奖金的报酬诉求更为强烈,而且远比其他人更希望证明自己的实力。而在次数方面,竞赛新手更希望提升专业技能,熟手更希望得到工作/实习机会,老手更希望获取赛事奖金,扩展人脉、交流学习与证明实力。

排名表现与参赛次数诉求分布

2.2 代码实践与复杂分析能力最被看重

提升专业技能是数据竞赛人才参与数据竞赛的首要核心诉求,具体提升哪些专业技能,哪些能力更为数据竞赛人才所侧重?根据调研结果显示,各个层次的玩家在能力倾向分布大致相似,代码实践能力与复杂分析能力为数据竞赛人才看重的核心能力,竞赛老手与黄金玩家在资料查询能力与团队协作提升方面更为侧重。

排名能力与参赛次数能力分布

2.3 人才参赛动机与持续参与意愿

本文借鉴了Carmeli & Schaubroec(2007)自我效能感的测量量表,Koh & Kim以及 SunY, Fang Y, Kai H L(2012)对于学习成长动机、身份构建和社区感的内部满足感量表,以及王彦杰(2010)和 Johannes(2014)对于外部动机、外部刺激和外部效价的外部报酬感测量,整合为本文的综合测量量表。

测量量表

2.3.1 自我效能感

自我效能感指的是个体结合自身的实力和任务难度,对于完成任务目标的自信程度。

根据数据调研统计发现,竞赛的排名表现和参与次数都与自我效能正相关,参与次数越多或排名表现越排在前列,自我效能感就越高,越有持续参与意愿。且参与次数(均分8.449)相对排名表现(均分8.272),对于自我效能的影响更高。

根据选手访谈,数据竞赛是锻炼技能实践验证能力的机会,在学习与就业的不同阶段都会参与竞赛去不断提升自己的能力,培养自我效能最大的困难是刚接触竞赛时,知识储备不足,缺少相应的路径和指导。相比竞赛中名列前茅,更看重在竞赛中多次累积的经验,底层的数据分析能力训练与跨领域认知策略的培养,更让自己有信心并不断参与竞赛。

排名表现与参赛次数的自我效能分布

2.3.2 内部满足感

内部满足感指不是为了一些可感知可分离的结果做事,而是满足内心的需求。拥有诸如乐趣、挑战感、归属感等内部动机的使用者更能够持续参与和使用。本年鉴中内部满足感动机分为学习成长、身份构建、虚拟社区感三个方面。

  1. 学习成长——学习成长是指人才在参与数据竞赛中,能够学习或提高的相关技能,继而能力提高会引发参与者的持续参与意向,当个体在参与的过程中得到学习和提升,也容易被社群接纳建立归属感,也就会更频繁的参与。

  2. 身份构建——身份构建是指通过在竞赛中,释放自己的创造力和想象力,  来证明自己能力并进一步构建自己的身份角色,也称自我肯定。身份构建和自我肯定能够使得竞赛选手产生沉浸的体验,保持持续的参与意愿和行为。选手希望通过持续的参与竞赛和任务,能够证明自己的能力并且构建自己的身份。

  3. 虚拟社区感——虚拟社区感会使其对社区负有责任感,  从而在竞赛平台中想要持续的参与。竞赛选手在社区中互相支持建立自己的角色并且认同别人的身份以及产生信任,会产生社区归属感,进而有持续参与的意愿。

根据调研统计发现,竞赛的排名表现和参与次数都与内部满足感正相关,参与次数越多或排名表现越排在前列,内部满足感就越高,越有持续参与意愿。且参与次数(均分9.254)相对排名表现(均分9.048),对于内部满足感的影响更高。

根据选手访谈,在数据竞赛中和志同道合的小伙伴一同参与竞赛,通过学习成长,从竞赛小白一路成长为竞赛大神,通过社交不断深化关系链,并在社群与社区中渐渐构建起影响力和社会地位,会很有满足感和社区归属感,更愿意分享自己的竞赛经验,自发维护竞赛氛围,为数据竞赛生态建设不断贡献力量。

排名表现与参赛次数下的内部满足感

2.3.3 外部报酬感

外部报酬感指能够间接地得到内心满足的需求,是一种可感知可分离的事务,例如竞赛奖金,工作机会等,越高的奖励设置,越能增强持续参与意愿。数据竞赛平台具备将知识进行变现的有偿属性,人才对于获取报酬的预期是激励和吸引他们参与的十分重要的因素。

根据数据调研统计发现,竞赛的排名表现和参与次数与外部报酬感正相关。

根据选手访谈,数据竞赛比起奖金更看重的是工作/实习机会,数据竞赛带来的就业竞争力的提升,和工作机会要比一次性的奖金更为吸引人,一次完整参与竞赛的项目经历可以为简历增添不少分数,获取Top名次就更有竞争优势,目前也有不少公司或机构通过数据竞赛遴选人才,在如今数字经济时代,算法相关岗位竞争相对激烈,人才通过数据竞赛获取更多报酬机会,具备相应的意愿,但因为竞赛的名次有限,竞争依旧激烈,故意愿相对自我效能感与内部满足感低一些。

排名表现与参赛次数下的报酬感

通过数据分析总结来看,内部满足感相对之下更能提升竞赛选手的持续参与竞赛的意向,学习成长对应成就需求,高成就感的竞赛人才更多会为了乐趣和挑战参与竞赛,并不会特别看重成功所带来的物质奖励,完成任务的过程更使得他们产生自豪感,需要更多的是持续反馈和改进对策,帮助他们进一步提升能力,满足成就需求。

身份构建对应权力需求,拥有权力需求的人才更喜欢竞赛类获得,并且会尽力争取出色的成绩以获得较高地位和权力,他们也会持续不断的投入,更多的是为了获得地位、认可和权力,帮助其构建并认清自己的身份。

虚拟社区对应人际需求,拥有人际需求动机的竞赛人才在与人交流的过程中会给他们带来愉快,更喜欢合作而不是竞争的环境,帮助其交流分享,或者比赛结束后开源成果助力他人成长,可助力实现人际需求。

在外部报酬感方面,外部奖金等刺激并不是特别明显,在竞争日益激烈的今天,竞赛人才更加注重工作机会。在自我效能方面,由于竞赛所需的知识和技能的门槛相对较高,且竞争性激烈,不是有动机就能够参与,除非相信不断努力可以取得较好成绩且能力不断提升的情况,不然人才很难在困难面前坚持不懈的投入和参与。

第三章:数据竞赛平台概况

3.1 人才获取竞赛信息主要来源

数据竞赛2020年间约有上千场,那么竞赛信息如何触达到精准的数据竞赛人才,数据竞赛人才获取竞赛信息的渠道分布如何?通过调研数据结果显示,竞赛相关自媒体是数据竞赛人才获取竞赛信息的主要途径,参与竞赛次数越多,更易于建立对竞赛平台的认知与偏好,形成了竞赛相关的社群,获取信息来自竞赛平台推送或相关社群的概率会更高。据访谈调研,部分高校计算机或数学相关专业,数据竞赛已成为课程设计中的一部分,学生竞赛的初体验易于来自老师或同学等熟人推荐。

渠道分布来源


3.2 数据竞赛平台年度评选

数据竞赛平台与数据竞赛联系紧密,为竞赛的模式和发展提供了平台,在面向逾千名竞赛选手的调研中,Kaggle作为全球最大的数据科学技术分享社区,竞赛影响力始终火热,同时也有四分之三的竞赛人才在国内天池参加数据竞赛,天池作为国内数据算法类赛事第一品牌,已具备较强良好的品牌影响力和用户心智。本次年鉴中选取了国内领先的Top5竞赛平台进行调研,统计2020年间平台竞赛整体情况,评选出学术,创新,应用,学习各个维度的最佳竞赛。

数据竞赛人才平台偏好分布

(多选题,数据结果=选择该渠道的人数/参与本题的总人数)

2020年间各个竞赛平台共发布了397道赛题(数据根据平台调研与公开资料整理,统计了kaggle与国内Top5平台)

2020年平台赛题数统计

(多选题,数据结果=选择该渠道的人数/参与本题的总人数)

3.2.1 天池

天池是国内最大的大数据众智平台,面向社会开放高质量脱敏数据集(阿里数据及第三方授权数据)和计算资源,吸引全球高水平人才创造优秀解决方案,有效帮助行业/政府解决业务痛点,并为企业招聘提供人才输送。作为中国产业AI排头兵,天池提供集品牌、生态、人才、算力为一体的数据智能解决方案,为产业创造价值。

2014年至今,天池已成功运作400余场高规格数据类竞赛,覆盖全球98个国家和地区的60万数据开发者。天池平台上的竞赛课题以解决实际场景中的业务痛点为主,实战性和应用性强,场景覆盖数字政府、电商、金融、交通、物流、航空、工业、基因、电力、医疗多个领域,让AI普惠各行各业。

近年,天池平台推出模型评估工具TCC(TianChi Computing的缩写),保障竞赛优胜模型质量的同时兼顾模型效率和数据安全,维护竞赛公平性并推动竞赛成果落地转化,2020年天池在TCC的基础上推出业界首创的流评测机制,推动竞赛模型评估迈向新高度。经统计,2020年间天池平台累计发布88道赛题,13.5万支团队参与、奖金总额2121万人民币。

年度最佳赛事 - 天池篇

学术赛:安全AI挑战者计划赛事

推荐理由:赛事以系列竞赛贯穿全年,2019年8月至今,联合三个国际顶会(CVPR2021、ACMMM2021、CIKM2020)共举办了七期赛事,其中第七期针对电商标识检测的鲁棒性防御比赛,吸引全球300+校企的10000+选手参加,沉淀恶意样本3000万+。

赛题地址:https://s.alibaba.com/challenge

创新赛:2020数字中国创新大赛-数字政府赛道

推荐理由:无论是人才层次、专业性,还是解决方案的领先性,在相关领域表现都很出色,不少已获得相关领域国家专利、或在实践中取得优秀的成果。同时,大赛整合了全球400+家高等院校及科研院所、100+开发者社区等资源支持和参与,共吸引了全球16个国家和地区的4494支队伍、5016名选手报名参赛,参赛规模创下新高。

赛题地址:https://dcic-china-finals.tianchi.aliyun.com/

应用赛:数智重庆·全球产业赋能创新大赛

推荐理由:大赛共吸引来自全球13个国家和地区共计3872支队伍、4371名选手报名,在本次大赛结束之后,由选手开发的算法将会落地产生实际价值,在实际生产中发挥重要角色,降低人力成本,创造经济效益,助力行业数字化。

赛题地址:https://chongqing.tianchi.aliyun.com/

学习赛:天池学习赛

推荐理由:天池学习赛由Datawhale和天池举办,构建了零基础入门数据竞赛的学习赛体系,涵盖数据挖掘、CV、NLP和推荐系统等领域。2020年已经成功举办5场比赛,每场比赛都给出完整的竞赛资料,详细的赛题解读与baseline分享,累计超过30000支参赛团队,是新人入门数据竞赛的不二之选。

赛题地址:https://tianchi.aliyun.com/competition/gameList/coupleList

3.2.2 DataFountain

DataFountain(简称“DF”)是国内领先的数据智能协同创新平台,为17万+用户提供了专业的大数据竞赛、人工智能数据集、开源分享社区、建模工作台、案例实训等服务。依托创新技术与国家级赛事服务能力,自2015年成立以来已举办280余场由政府、企事业单位、科研院所主办的大型赛事,是CCF指定竞赛平台。

DF平台鼓励选手赛中赛后得当开源,坚持严格反作弊,关注能力提升与实践应用,为参赛选手提供了友好、公平、高成长的竞赛环境。DF平台打造了国内多个经典赛事IP,其中CCF BDCI⼤赛已成为国内最具生命力、参赛规模最大的⼤数据联赛及圈内聚⾸盛会。经统计,DF平台2020年上线57道赛题,吸引5.5万余⼈、4.7万余⽀团队参赛,提交作品23万余次。

年度最佳赛事 - DataFountain篇

赛事:CCF大数据与计算智能大赛

推荐理由:2020 CCF BDCI,上半年发布疫情专题赛季,下半年发布正式赛季(14道赛题,算法类、自主平台类、系统类三大赛道),以及9道算法类训练赛题。本届大赛共吸引了全球25个国家、1247所高校、1873家企业的43795人、37994支队伍参赛,提交作品83361次。大赛是目前由学术组织发起的全球最大参与规模赛事。

赛题地址:https://www.datafountain.cn/special/BDCI2020

创新赛:2020年全国人工智能大赛(NAIC)

推荐理由:共三大赛题,每一个赛题均同步发布了相关领域全球最大规模数据集用以训练研究。吸引了来自清华、北大、麻省理工、牛津等 400 余所海内外高校及科研院所、谷歌、腾讯、阿里、字节跳动等 560 家企业的 5307 支队伍、6485 名选手报名参赛。

赛题地址:https://www.datafountain.cn/competitions?raceId=4

应用赛:2020北京数据开放创新应用大赛暨科技战疫·大数据公益挑战赛

推荐理由:本次大赛共计439所高校、482家单位的6700余技术团队参赛,提交作品23000余次,最终60余件作品脱颖而出,其中优秀解决方案,感染路径定位、生物预警系统等部分作品实际应用,即由北京向全国推广应用,有效助力疫情防控。

赛题地址:https://www.datafountain.cn/special/BJSJ

3.2.3 和鲸社区

和鲸社区,是国内最早一批专注于大数据算法比赛的商业服务机构之一,依托自有的数据科学社区和数据科学工具的资源优势,成为知名的大数据竞赛平台。

和鲸将专业赛事平台和运维系统开放给全行业,致力于打造最专业省心的竞赛管理平台,为个人和企业提供 “数据化转型的练兵场”,用可控的成本和敏捷的方式进行一次精准可控的升级创新。经统计,2020年间和鲸社区累计上线39道赛题,累计参赛用户1.4万余⼈、1万余支团队、提交作品16万余次。而其中有40%的赛题由主办方⾃主发布。

年度最佳赛事 - 和鲸篇

学术赛:医学数据挖掘算法评测大赛

推荐理由:为促进数据挖掘算法更好地支撑智能化医学信息系统,中华医学会医学信息学分举办医学数据挖掘算法评测大赛,通过评测参赛团队所构建算法在测试集上的 F1-score 来衡量团队的表现。共计396支队伍参与,有效助力智慧医疗发展。

赛题地址:https://www.kesci.com/home/competition/5f2d0ea1b4ac2e002c164d8

创新赛:中国创新挑战赛智慧教育专题赛

推荐理由:自比赛启动以来,共有将近300支队伍参加比赛,参赛队伍不仅来自清华大学、北京大学、中国科学技术大学等国内顶尖高校及科研机构,还来自阿里、腾讯、百度等一线互联网公司,参加人数众多,业内影响大,使得OCR技术能向自动批改等典型场景落地更进一步。

赛题地址:https://www.kesci.com/home/competition/5f703ac023f41e002c3ed5e4

应用赛:数字电网开发大赛

推荐理由:由中国南方电网公司主办的数字电网开发大赛,本着“任务从业务中来,成果到应用中去”的原则,旨在推动新一代数字化技术与电网业务深度融合,解决电网实际业务的技术难题。

赛题地址:https://www.kesci.com/landing/dgds

学习赛:DataJoy练习赛

推荐理由:DataJoy练习赛是 Heywhale 和鲸社区的自有练习赛品牌,预测分析·员工满意度预测,是基于员工的满意度调查与员工的基本信息和工作经历,预测员工对于公司的满意度情况,是分类任务的基本入门竞赛。

赛题地址:https://www.kesci.com/home/competition/5ec3b6987ba12c002d3e42bc

3.2.4 华为云

华为云⼤赛平台,是华为公司⾯向全球开发者的创新⼤赛平台,致⼒于为想要改变世界的开发者们提供⼀个实践创新的梦想平台,⿎励更多开发者基于华为平台和能⼒进⾏产品与⽅案的创新与应用。主要赛事有:

①编程和软件开发类赛事,使用华为敏捷开发DevCloud、鲲鹏、HiQ等服务和产品,与全球编程爱好者一起探索编程与竞技的更高境界。以赛促学,以赛促建,携手为生态建设搭建政企高校合作的桥梁。

②华为云AI竞赛主要基于一站式AI开发平台ModelArts进行参赛作品的开发、调试、提交及自动评分,其中评分测试集不可见的方式最大化保证比赛客观公正。

③网络AI算法类赛事,使用华为网络人工智能(NAIE)的端到端数据处理、特征工程、AI模型训练平台,集成200+网络电信领域API接口(含自研接口如Automl等)。

年度最佳赛事 - 华为云篇

学术赛:2020年第⼀届⽆线⼤数据竞赛

推荐理由:第一届共有120支团队报名,收获32个高级别技术作品,推进了无线大脑交流会和无线大数据研讨会的交流成果,为无线领域的技术探索引入了6项思考DNA。

赛题地址:https://console.huaweicloud.com/naie/competitions/wireless-network-intelligent-2020

创新赛:“华为云杯”2020⼈⼯智能应⽤创新⼤赛

推荐理由:⼤赛分为创客赛道和企业赛道,创客赛道 参基于新⼀代⼈⼯智能相关技术探索和设计,有明确场景驱动的应⽤创新⽅案,聚焦AI应⽤落地进⾏全场景创新,共计1563⼈报名参与。

赛题地址:https://competition.huaweicloud.com/information/1000041242/introduction

应用赛:2020第⼆届华为云⼈⼯智能⼤赛·⽆⼈⻋挑战杯

推荐理由:比赛选手拥有与华为云人工智能平台技术专家导师和上海交通大学创新中心专家导师团队进行深入沟通交流的机会,了解并动手实践华为云提供的智能硬件及人工智能平台等服务。⾃⼤赛启动以来,累计777⼈次报名,198⽀团队参与。报名高校150+,提交作品4000余份。

赛题地址:https://competition.huaweicloud.com/information/1000032499/introduction

学习赛:“云上先锋”·AI主题赛

推荐理由:围绕⽣活场景中的垃圾图⽚分类、自动驾驶技术,基于计算机视觉的AI算法展开学习,使⽤ModelArts等平台和技术解决⽣活中的实际问题。通过完备的学习资料、直播+答疑的⽅式,助⼒通关垃圾分类项⽬,共吸引全国600余所高校,累计47899报名,39470团队参与,提交了5万余份作品。

赛题地址:https://developer.huaweicloud.com/contest/ysxf-AI.html

年度最佳赛事 - DataCastle篇

学术赛:2020深圳开放数据应用创新大赛

推荐理由:大赛紧扣城市治理和民生服务主题,开放政府数据资源,创新社会治理方式,推进深圳市智慧城市建设。大赛共计4410人参与,934支团队,750个提交作品。

赛题地址:https://www.kesci.com/home/competition/5f2d0ea1b4ac2e002c164d8

创新赛:2020首届数字四川创新大赛

推荐理由:大赛旨在激励引导社会各界关注和参与开放数据的创新应用,创新应用赛中,共计3792人参与,2405支队伍,20832次作品提交,以数据创新应用为方向,有效用数字的力量助推四川各行各业的发展。

赛题地址:https://js.dclab.run/v2/cmptDetail.html?id=467

应用赛:山东省第二届数据应用创新创业大赛-枣庄分赛场

推荐理由:以“数聚赋能,智惠山东”为主题,由山东省大数据局及相关部门发布山东省第二届数据应用创新创业大赛,通过算法赛和创意赛相结合的模式,创新公共数据开放模式,探索大数据创新应用。

赛题地址:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=20

学习赛:轴承故障检测训练赛

推荐理由:作为DataCastle的特色练习赛,特别面向学习《机器学习入门》课程的学员,让学员把课上所学的知识运用到现实中去,用竞赛来检验自己所学的知识,达到知识整合,融会贯通的目的。


赛题地址:https://js.dclab.run/v2/cmptDetail.html?id=248

第四章:竞赛干货分享


4.1 基础必备知识

第一步,学习竞赛必备的知识,主要包括Python、机器学习、深度学习和Linux操作系统四个方面。完成此步骤学习完成后,需要具备基础的编码和动手能力。

4.2 竞赛工具库学习

第二步,对Python环境下的竞赛工具库完成学习,主要包括数据处理、数据可视化、机器学习库和深度学习库四个方面。完成此步骤学习后,需要具备使用特定库完成数据操作的动手能力。

4.3 竞赛技能学习

第三步,需要完成具体竞赛技能的学习,包括竞赛平台的使用、数据分析过程、特征工程过程、模型训练与验证细节和模型集成。

4.4 竞赛方向深造

第四步,需要完成具体方向的深入,方向包括数据分析、结构化数据、非结构化数据和强化学习方向。

4.5 数据竞赛通用流程

很多数据竞赛虽然技巧很多,但是整体的流程都是相似的。当我们进入某个数据竞赛,会拿到关于该数据竞赛的背景描述、问题定义、重要时间段信息以及对应的数据字段信息等。然后针对该问题,我们需要对其进行分析建模。此处,我们将分析建模流程细分为十一个小模块。

篇幅有限,具体内容后台回复“竞赛年鉴”可获取

第五章:2020竞赛开源重要贡献者

竞赛生态的发展离不开竞赛选手们的分享与贡献,Datawhale团队根据选手在竞赛开源方面的贡献参与,从开源贡献及代表作、影响力、参赛次数与成绩等维度进行推选,推选出《2020竞赛开源重要贡献者》。所谓竞赛开源贡献者,我们理解不仅限于竞赛选手,贡献代码的开发者、乐于分享的布道者、开放方案的贡献者、竞赛开源社区的运营者等等,都是竞赛开源生态发展道路上不可或缺的角色。

第六章:数据竞赛生态展望

数据竞赛生态的发展与崛起,是在宏观政策支持、教改积极探索、专业人才涌现、市场需求激增等因素共力作用的演化趋势。

参考文献

特别鸣谢

感谢参与问卷调研的1022位贡献者:

竞赛人才深度访谈名单:

李佳欣、李轩、廖泽龙、应雅婷、张政。

报告团队

Datawhale团队:成立于2018年,是由高校的教授、学生,企业在职者等自发创建的开源组织,汇聚了众多有开源精神和探索精神的开源贡献者,目前有成员近200人。组织以for the learner为使命,致力于构建数据科学领域的开源学习社区,和学习者一起成长。

如果你觉得有价值,欢迎点个在看 

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号