赞
踩
一手数据(Primary data):也称为原始数据,是指直接获取,没有经过加工或者第三方传递获得的数据。
二手数据(Secondary data):指的是通过第三方或者是现有的数据资料获取的数据。
企业如果⽤于自行使用开发,那么就属于是⼀⼿数据。而如果用于数据交换或者共享,那么对于接收⽅来说,这些数据,就属于二手数据。
在一手数据的使用过程,需要特别注意的是,要对采集回来的数据进⾏逻辑合理性验证。在统计学中,有GIGO(Garbage In Garbage Out)这样的⼀个说法.
在选择二手数据时,应该尽量挑选权威、主流的机构作为数据来源。
抽样误差(Sampling Error)的大小,主要由样本容量的大小和抽样方式来决定。
简单随机抽样(Simple Random Sampling) :总体中的每个样本都有同等的被抽取到的机会 。可以用以下的公式来确定样本量和抽样误差之间的关系
n
=
(
Z
α
/
2
)
2
σ
2
E
2
n=\frac{(Z_{\alpha/2})^2\sigma^2}{E^2}
n=E2(Zα/2)2σ2
其中
n
n
n表示样本量,
Z
α
/
2
Z_{\alpha/2}
Zα/2为置信区间,一般去1.96(95%)置信区间,
σ
\sigma
σ为总体标准差,
E
E
E为抽样误差范围 。因此根据这个公式,可以实现
n
n
n和
E
E
E之间的互相推导。
分层抽样(Stratifified Sampling) :简单随机抽样的假设并不总是成立。如果总体可以按照⼀些特征分成若干层。层与层之间差异明显,每个层内部的个体特征相近,那么我们可以对每个层做简单随机抽样。抽样结果合并的集合,就是我们最终确认的抽样样本。
系统抽样(Systematic Sampling) : 使⽤系统抽样的时候,仍然需要将个体进行编号,然后根据抽样样本容量决定抽样的间距。因此⼜叫做等距抽样或者机械抽样。
分段抽样(Multi-stage Sampling) :分段抽样中,我们⾸先把总体划分成⼀些大小差不多的群体。在这些群体中随机抽取几个。被抽中的群体,就作为下⼀步进行随机抽样的“总体”。
提出问题—>调查收集资料—>分析预测问题
在设计单选题的时候,我们需要注意选项间的关系,尽量做到不重不漏,避免答题者产⽣混淆和困扰。
在必须使⽤多项选择题的时候,选项的罗列要有⼀定的逻辑关系,避免⽆意义地增加选项,给后续的录入和分析造成麻烦。
数据集成
数据探索
集中趋势 ,我们⼀般可以通过平均值、中位数、众数来衡量
离散程度 ,我们⼀般则可以⽤极差、⽅差、标准差、分位数来评估。
箱形图(Box-plot)
Q-Q图(Q-Q Plot)
散点图(Scatter Plot)
数据变换
Z-score标准化 : Z = x − μ σ Z=\frac{x-\mu}{\sigma} Z=σx−μ,其中 μ \mu μ为均值, σ \sigma σ是变量的标准差
Z-score可以理解为,数据落在平均值几倍的标准差范围内。变换后,变量的取值范围仍然是
(-∞,+∞)。新⽣成的变量均值为0,方差为1。在不确定最大最小值,或者存在极端离群点的情况
下,⽤Z-score标准化是比较好的选择。
最大最小标准化 : X = x − m i n m a x − m i n X=\frac{x-min}{max-min} X=max−minx−min, 变换后,变量的取值范围变为[0,1]。最大最小标准化有⼀个缺陷是,当引入新的数据后,需要重新计算 m i n min min和 m a x max max的取值。
小数定标法 :小数定标法是通过移动数据的小数点位置进行标准化
数据归约(简化)
维度归约 :降维、聚类
数值规约 :直方图、抽样、聚类、数据分箱
2.1.1 填补遗漏的数据值
2.1.2 平滑有噪声数据
⼀般平滑有噪声数据的⽅法有分箱法、聚类法,也可以通过移动平均的方法来进行过滤平滑
2.1.3 识别或去除异常值
箱线图或者散点图来判断,不一定需要清除
2.1.4 解决不⼀致问题
2.1.5 查重
内容比较简单,了解即可
本文链接:http://t.csdn.cn/n0VLj
转载请显示来源~~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。