赞
踩
马云曾说“中国正迎来从IT时代到DT时代的变革”,DT就是大数据时代。随着移动互联网的发展,人们越来越感受到技术所带来的便捷,同时企业也将搜集到越来越多与用户相关的数据,包括用户的基本信息、交易记录、个人喜好、行为特征等。这些数据就相当于隐藏在地球深处的宝贵资源,企业都想从数据红利中分得一杯羹,进而推进企业重视并善加利用数据分析与挖掘相关的技术。
本章将以概述的形式介绍数据分析和挖掘相关的内容,通过本章的学习,你将了解如下几方面的知识点:
随着数据时代的蓬勃发展,越来越多的企事业单位开始认识到数据的重要性,并通过各种手段进行数据的搜集。例如,使用问卷调查法获取用户对产品的评价或改善意见;通过每一次的实验获得产品性能的改良状况;基于各种设备记录空气质量状况、人体健康状态、机器运行寿命等;通过网页或APP记录用户的每一次登录、浏览、交易、评论等操作;基于数据接口、网络爬虫等手段获取万维网中的公开数据;甚至是企业间的合作实现多方数据的共享。企事业单位花费人力、物力获取各种数据的主要目的就是通过数据分析和挖掘手段实现数据的变现,否则囤积的数据就是资源的浪费。
数据分析和挖掘都是基于搜集来的数据,应用数学、统计、计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。例如,应用漏斗分析法挖掘出用户体验过程中的不足之处,从而进一步改善产品的用户流程;利用AB测试法检验网页布局的变动对交易转化率的影响,从而确定这种变动是否有利;基于RFM模型实现用户的价值分析,进而针对不同价值等级的用户采用各自的营销方案,实现精准触达;运用预测分析法对历史的交通数据进行建模,预测城市各路线的车流量,进而改善交通的拥堵状况;采用分类手段,对患者的体检指标进行挖掘,判断其所属的病情状况;利用聚类分析法对交易的商品进行归类,可以实现商品的捆绑销售、推荐销售等营销手段。应用数据分析和挖掘方法,让数据产生价值的案例还有很多,这里就不一一枚举了,所以只有很好地利用数据,它才能产生价值,毫不夸张地说,大部分功劳都要归功于数据分析和挖掘。
也许读者也曾自我发问——学会了数据分析和挖掘技术,可以从事哪些行业的相关工作呢?在笔者看来,有数据的地方就有用武之地。现在的数据充斥在各个领域,如庞大的互联网行业,包含各种电商平台、游戏平台、社交平台、中介类平台等;金融行业,包含银行、P2P、互联网金融等;影响国计民生的教育、医疗行业;各类乙方数据服务行业;传统行业,如房地产、餐饮、美容等。这些行业都需要借助数据分析和挖掘技术来指导下一步的决策方向,以下仅举3个行业应用的例子,进一步说明数据分析和挖掘的用武之地。
1.2.1 电商领域——发现破坏规则的“害群之马”
移动互联网时代下,电商平台之间的竞争都特别激烈,为了获得更多的新用户,往往会针对新用户发放一些诱人的福利,如红包券、满减券、折扣券、限时抢购优惠券等,当用户产生交易时,就能够使用这些券减免一部分交易金额。电商平台通过类似的营销手段一方面可以促进新用户的获取,增添新鲜血液;另一方面也可以刺激商城的交易,增加用户的活跃度,可谓各取所需的双赢效果。
然而,某些心念不正的用户为了从中牟取利益,破坏大环境下的游戏规则。某电商数据分析人员在一次促销活动的复盘过程中发现交易记录存在异常,于是就对这批异常交易作更深层次的分析和挖掘。最终发现这批异常交易都有两个共同特点,那就是一张银行卡对应数百个甚至上千个用户id,同时,这些id自始至终就发生一笔交易。暗示了什么问题?这说明用户很可能通过廉价的方式获得多个手机号,利用这些手机号去注册APP成为享受福利的多个新用户,然后利用低价优势买入这些商品,最后再以更高的价格卖出这些商品,这种用户我们一般称为“黄牛”。
这些“害群之马”的行为至少给电商平台造成两方面的影响,一是导致真正想买商品的新用户买不到,因为有限的福利或商品都被这些用户抢走了;二是虚增了很多“薅羊毛”的假用户,因为他们很可能利用完新用户的福利资格后就不会再交易了。如果没有数据分析与挖掘技术在互联网行业的应用,就很难发现这些“害群之马”,企业针对“害群之马”对游戏规则做了相应的调整,从而减少了不必要的损失,同时也挽回了真实用户的利益。
1.2.2 交通出行领域——为打车平台进行私人订制
打车工具的出现,改变了人们的出行习惯,也改善了乘车的便捷性,以前都是通过路边招手才能搭乘出租车,现在坐在家里就可以完成一对一的打车服务。起初滴滴、快滴、优步、易到等打车平台,为了抢占市场份额,不惜花费巨资补贴给司机端和乘客端,在一定程度上获得了用户的青睐,甚至导致用户在短途出行中都依赖上了这些打车工具。然而随着时间的推移,打车市场的格局基本定型,企业为了自身的利益和长远的发展,不再进行这种粗放式的“烧钱”运营手段。
当司机端和乘客端不再享受以前的福利待遇时,在一定程度上影响了乘客端的乘车频率和司机端的接单积极性。为了弥补这方面的影响,某打车平台利用用户的历史交易数据,为司机端和乘客端的定价进行私人订制。
例如,针对乘客端,通过各种广告渠道将折扣券送到用户手中,一方面可以唤醒部分沉默用户(此时的折扣力度会相对比较高),让他们再次回到应用中产生交易,另一方面继续刺激活跃用户的使用频率(此时的折扣力度会相对比较低),进而提高用户的忠诚度。针对司机端,根据司机在平台的历史数据,将其接单习惯、路线熟悉度、路线拥堵状况、距离乘客远近、天气变化、乘客乘坐距离等信息输入到逻辑模型中,可以预测出司机接单的概率大小。这里的概率在一定程度上可以理解为司机接单的意愿,概率越高,说明司机接单的意愿越强,否则意愿就越弱。当模型发现司机接单的意愿比较低时,就会发放较高的补贴给司机端,否则司机就会获得较少的补贴甚至没有补贴。如果不将数据分析与挖掘手段应用于大数据的交通领域,就无法刺激司机端和乘客端的更多交易,同时,也会浪费更多的资金,造成运营成本居高不下,影响企业的发展和股东的利益。
1.2.3 医疗健康领域——找到最佳医疗方案
众所周知,癌症的产生是由于体内某些细胞的DNA或RNA发生了病变,这种病变会导致癌细胞不断地繁殖,进而扩散至全身,最终形成可怕的肿瘤。早在2003年,乔布斯在一次身体检查时发现胰腺处有一块阴影,医生怀疑是一块肿瘤,建议乔布斯马上进行手术,但乔布斯选择了药物治疗。遗憾的是,一年后,医生从乔布斯的身体检查中发现可怕的癌细胞已经扩散到了全身,认为乔布斯的生命即将走到人生的终点。
乐观的乔布斯认为还可以有治疗的希望,于是花费几十万美元,让专业的医疗团队将自己体内的DNA与历史肿瘤DNA样本进行比对,目的就是找到符合肿瘤病变的DNA。这样,对于乔布斯体内的DNA来说就有了病变与正常的标签,然后基于这个标签构建分类算法。当正常DNA出现病变特征时,该算法就能够准确地找出即将病变的DNA,从而指导医生及时地改变医疗方案和寻找有效的药物。最终,使得原本即将走到终点的生命,延续了八年时间,正是这短短的八年,让乔布斯一次次地创造了苹果的辉煌。如果没有数据分析与挖掘在医疗行业的应用,也许就没有现在的苹果。
从广义的角度来说,数据分析的范畴会更大一些,涵盖了数据分析和数据挖掘两个部分。数据分析就是针对搜集来的数据运用基础探索、统计分析、深层挖掘等方法,发现数据中有用的信息和未知的规律与模式,进而为下一步的业务决策提供理论与实践依据。所以广义的数据分析就包含了数据挖掘的部分,正如读者在各招聘网站中所看见的,对于数据分析师的任职资格中常常需要应聘者熟练使用数据挖掘技术解决工作中的问题。从狭义的角度来说,两者存在一些不同之处,主要体现在两者的定义说明、侧重点、技能要求和最终的输出形式。接下来阐述这几个方面的差异。
本书将安排10个章节的内容来讲解具体的数据挖掘算法和应用案例,故需要对数据挖掘的具体流程做一个详细的说明。这里的流程可以理解为数据挖掘过程中的规范,只有熟悉了这些具体的规范,才可以在数据挖掘过程中做到游刃有余。首先通过图1-1中的金字塔了解数据挖掘中具体的操作步骤。
1.4.1 明确目标
前面讲了几个有关数据分析和数据挖掘在电商行业、交通领域和医疗健康方面的案例,体现了数据分析与挖掘的重要性。你可能非常期待数据分析与挖掘在工作中的应用,先别急,在实施数据挖掘之前必须明确自己需要解决的问题是什么,然后才可以有的放矢。
这里通过三个实际的案例来加以说明数据挖掘流程中的第一步,即明确目标:
1.餐饮相关
2.金融授信
3.影响用户价值高低
1.4.3 数据清洗
为解决企业痛点或面临的问题,需要搜集相关的数据。即使数据搜集上来,也必须保证数据“干净”,因为数据质量的高低将影响最终结果的准确性。通常都有哪些“不干净”的数据会影响后面的建模呢?针对这些数据都有哪些解决方案呢?这里不妨做一个简要的概述。
1.4.4 构建模型
“万事俱备,只欠建模”!据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间,可谓“地基不牢,地动山摇”。接下来,在数据准备充分的前提下,需要考虑企业面临的痛点或难题可以通过什么类型的挖掘模型解决。
1.4.5 模型评估
到此阶段,已经完成了数据挖掘流程中的绝大部分工作,并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类类型的模型,即使其在训练集中的表现很好,但在测试集中结果一般,则说明该模型存在过拟合的现象,需要从数据或模型角度做进一步修正。
1.4.6 应用部署
通常,模型构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型构建和评估是数据分析师或挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。
例如,疾控中心将网民在互联网上的搜索记录进行清洗和统计,并将整理好的数据输入某个系统中,就可以预测某地区发生流感的概率;用户在申请贷款时,前端业务员通过输入贷款者的信息,就可以知道其是否满足可贷款的结论;利用用户在电商平台留下的浏览、收藏、交易等记录,就可以向用户推荐其感兴趣的商品。这些应用的背后,都将数据中的模式或规律做了重新部署,进而便于使用方的操作。
“欲先善其事,必先利其器!”这里的“器”含有两方面的意思,一方面是软实力,包含对企业业务逻辑的理解、理论知识的掌握和施展工作的清醒大脑;另一方面是硬实力,即对数据挖掘工具的掌握。接下来就针对数据分析和挖掘过程中所使用的几种常用工具做简单介绍。
1.R语言
R语言是由奥克兰大学统计系的Robert Gentleman和Ross Ihaka共同开发的,并在1993年首次亮相。其具备灵活的数据操作、高效的向量化运算、优秀的数据可视化等优点,受到用户的广泛欢迎。近年来,由于其易用性和可扩展性也大大提高了R语言的知名度。同时,它也是一款优秀的数据挖掘工具,用户可以借助强大的第三方扩展包,实现各种数据挖掘算法的落地。
2.Python
Pyhton是由荷兰人Guido van Rossum于1989年发明的,并在1991年首次公开发行。它是一款简单易学的编程类工具,同时,其编写的代码具有简洁性、易读性和易维护性等优点,也受到广大用户的青睐。其原本主要应用于系统维护和网页开发,但随着大数据时代的到来,数据挖掘、机器学习、人工智能等技术越发热门,进而促使了Python进入数据科学的领域。Python同样拥有各种五花八门的第三方模块,用户可以利用这些模块完成数据科学中的工作任务。例如,pandas、statsmodels、scipy等模块用于数据处理和统计分析;matplotlib、seaborn、bokeh等模块实现数据的可视化功能;sklearn、PyML、keras、tensorflow等模块实现数据挖掘、深度学习等操作。
3.Weka
Weka由新西兰怀卡托大学计算机系Ian Written博士于1992年末发起开发,并在1996年公开发布Weka 2.1版本。它是一款公开的数据挖掘平台,包含数据预处理、数据可视化等功能,以及各种常用的回归、分类、聚类、关联规则等算法。对于不擅长编程的用户,可以通过Weka的图形化界面完成数据分析或挖掘的工作内容。
4.SAS
SAS是由美国北卡罗来纳州大学开发的统计分析软件,当时主要是为了解决生物统计方面的数据分析。在1976年成立SAS软件研究所,经过多年的完善和发展,最终在国际上被誉为统计分析的标准软件,进而受到各个领域的广泛应用。SAS由数十个模块构成,其中Base为核心模块,主要用于数据的管理和清洗、GHAPH模块可以帮助用户实现数据的可视化、STAT模块则涵盖了所有的实用统计分析方法、EM模块则是更加人性化的图形界面,通过托拉拽的方式实现各种常规挖掘算法的应用。
5.SPSS
SPSS是世界上最早的统计分析软件,最初由斯坦福大学的三个研究生在1968年研发成功,并成立SPSS公司,而且在1975年成立了SPSS芝加哥总部。用户可以通过SPSS的界面实现数据的统计分析和建模、数据可视化及报表输出,简单的操作受到了众多用户的喜爱。除此之外,SPSS还有一款Modeler工具,其前身是Clementine,2009年被IBM收购后,对其性能和功能做了大幅的改进和提升。该工具充分体现了数据挖掘的各个流程,例如数据的导入、清洗、探索性分析、模型选择、模型评估和结果输出,用户可基于界面化的操作完成数据挖掘的各个环节。
上面向读者介绍了5款较为常用的数据分析与挖掘工具,其中R语言、Python和Weka都属于开源工具,读者不需要支付任何费用就可以从官网下载并安装使用;而SAS和SPSS则为商业软件,需要支付一定的费用方可使用。本书将基于开源的Python工具来讲解有关数据分析和挖掘方面的应用和实战。
本章主要站在读者的角度,回答了有关数据分析与挖掘的定义、应用的领域、两者的差异、实际的操作流程和常用的落地工具,同时,通过一个个小案例来说明数据分析和挖掘在实际应用中的价值体现,让读者对其拥有足够的重视。通过本章的学习,希望读者能够对数据分析与挖掘有一个清晰的认识,进而为后续章节的学习做铺垫。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。