赞
踩
前言:
作为一名数据分析师。首先,我们拿到数据时,脑海中要有一个数据处理框架,或者说是数据处理模板。当我们在脑中深刻记住接下来的数据处理模板,并细化了解每个模块,一个模块一个模块的去攻克它。这样,会使得我们学习数据分析更得心应手。但注意的是,就好像英语作文模板一样,套用时不能太死。数据分析也一样,还是根据我们现实需求,进行数据分析。
数据预处理的背景:
平时当我们拿到数据时,数据很难达到自己预想的模样,比如:数据缺失啊,准确性问题、指标太多等等。总要通过一系列的分析,数据操作才能拿到我们想要的数据。所以,这个时候,一个重要的步骤来了——数据预处理。就我个人而言,数据预处理感觉非常重要,数据质量是数据的生命。而数据预处理恰是掌握着数据质量的关键。以上的数据预处理流程图是我查阅资料,文献总结而来(有很多数据预处理版本自行参考),数据预处理主要分五步:数据探索、数据清洗、数据集成、数据规约、数据变换。有些专业名词不懂先别急,先知道大概这么几步。后面我再一一解释。
数据预处理第一步——数据探索阶段:
先上数据探索步骤图,先做初步了解
当我们观测、调查收集初步的样本数据集后,接下来肯定要思考的问题:样本数据集的数量和质量是否满足模型的架构的要求?是否出现从未设想过的数据状态?其中有没有明显的规律和趋势?各因素之间有什么样的关联性?数据探索阶段就是为解决上面这些问题的。这里应该很好理解,就不多bb。我想补充的是,其实数据探索阶段在我们后面数据挖掘中,通数据有趣模式的挖掘概念很像。简单的说,在大部分的应用数据场景中,我们拿到数据,并不知道其背后的含义、规律、价值。这时候,就需要我们对数据进行有趣模式挖掘。(哈哈~数据挖掘是数据分析师的进阶篇。先穿插着讲讲。)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。