当前位置:   article > 正文

Python数据分析与挖掘实战(1)——概要分析_对于获取的数据,可再从中进行抽样

对于获取的数据,可再从中进行抽样

数据挖掘的基本任务

数据挖掘的基本任务包括利用分类和预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提升企业的竞争力。

数据挖掘建模过程

1)定义挖掘目标

      针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后达到什么样的效果?因此,我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么。

2)数据取样

      在明确了需要进行数据挖掘的目标后,接下来就是需要从业务系统中抽取一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。通过对数据样本的精选,不仅能较少数据处理量,节省系统资源,还可以使我们想要寻找的规律性更加凸显出来。

      进行数据取样,一定要严格把质量关。在任何时候都不能忽略数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中还探索出来了什么“规律性”,再依次去指导工作,则很可能会造成误导。若从正在运行的新系统中进行过数据取样,更要注意数据的完整性和有效性。

      衡量取样数据质量的标准如下:

      a.资料完整无缺,各类指标齐全

      b.数据准确无误,反映的都是正常(而不是异常)状态下的水平

      对获取的数据,可再从中进行抽样操作。抽样的方式是多种多样的,常见的方式如下:

      a.随机取样:在采用随机取样方式时,数据集中的每一组观测值都有相同的被抽样的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观测值都有10%的机会被取到。

      b.等距抽样:如按5%的比例对一个有100组观测值的数据集进行等距抽样,则有100/5=20,等距抽样方式是取第20、40、60、80和第100这5组观测值。

      c.分层抽样:在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对于不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。

      d.从起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。

      e.分类抽样:在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择收据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。

3)数据探索

      前面所叙述的数据取样,多少是带着人们对如何实现数据挖掘目标的先验认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;样本中有没有什么明显的规律和趋势;有没有出现从未设想过的数据状态;属性之间有什么相关性;它们可区分成怎样一些类别。。。。这都是要探索的内容。

      对所抽取的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必需。可以说,挖掘模型的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量,从而为保证模型质量打下基础。

      数据探索主要包括:异常值分析、缺失值分析、相关分析和周期性分析等。

4)数据预处理

      当采样数据维度过大时,如何进行降维处理、缺失值处理等都是数据预处理要解决的问题。

      由于采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据对象必须进行预处理。那么,如何对数据进行预处理以改善数据质量,并最终达到完善最终数据挖掘结果的目的呢?

      数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

5)挖掘建模

      样本抽取完成并经预处理后,接下来要考虑的问题是:本次建模属于数据挖掘应用中的哪类问题(分类、聚类、关联规则、时序模式或者智能推荐),选择哪种算法进行模型构建?

      这一步是数据挖掘工作的核心环节。挖掘建模主要包括基于关联规则算法的智能推荐、基于聚类算法的价值分析、基于分类和预测算法的推荐等。

6)模型评价

      从上一步的建模过程中会得出一系列的分析结果,模型评价的目的之一就是从这些模型中自动找出一个最好的模型,另外就是要根据业务对模型进行解释和应用。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/446210
推荐阅读
  

闽ICP备14008679号