赞
踩
数据预处理在数据分析中是至关重要的步骤,它包括清理、转换和整理原始数据,以确保数据质量和可用性。在数据预处理的过程中包含以下几种处理方式,包含了具体操作步骤以及各个步骤的解释。具体包括10个步骤:数据的排序、查找重复个案、变量计算、个案选取、个案内值的计数、分类汇总、数据分组、数据转置、加权处理、数据拆分。由于篇幅过长,此次先进行前5个的解释说明。
(1)排序在数据分析中的作用:快速找到可能的离群点;一些操作需要排序作为前提(如文件的合并)。
(2)将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列。
排序次序:升序、降序
多重排序:选择变量名的次序很关键。
操作:数据-个案排序(可以选择多个变量名)
(1)通常在分析数据时,不应当出现关键变量(如编号)相同的个案。
(2)如果出现重复的个案,主要原因可能是数据录入时的疏忽或者不合理的编码等。
(3)在处理的数据量比较大的时候,自动查找其中的重复个案是必要的。
操作:数据-标识重复个案-定义匹配个案的依据(可能出现重复的变量名)-匹配组内的排序依据(重复数据的排序依据)
要创建的变量:主个案指示符(1=唯一个案或主个案,0=重复个案)。选择“每组中的最后一个个案为主个案”;“将匹配个案移至文件开头”用于人工判断;“显示创建的变量的频率”会出现在查看器中。
根据用户给出的SPSS算术表达式,对所有或部分样本数据进行加工,产生新变量或对原变量进行必要的转换(如预测问题,产生比率数据,偏态数据的正态处理,时间序列的平稳处理等)
(1)SPSS算术表达式:
由算术运算符(+、-、*、/、**)、SPSS函数以及SPSS变量名组成的式子。
(2)SPSS函数
包括算术函数、统计函数、分布函数、逻辑函数、字符串函数、缺失值函数、日期时间函数、其他函数
如算术函数:(numbexpr,数字表达式;)
函数 | 说明 | 范例(x=2.6,y=3) |
ABS(numbexpr) | 绝对值函数 | ABS(y-x)=0.4 |
RND(numbexpr) | 四舍五入函数 | RND(x)=3 |
TRUNC(numbexpr) | 取整函数 | TRUNC(x)=2 |
SORT(numbexpr) | 平方根函数 | SORT(y)=1.71 |
MOD(numbexpr,modulus) | 求算两数相除后的余数 | MOD(y,x)=0.4 |
EXP(numbexpr) | 以e为底的指数函数 | EXP(y)=20.09 |
LG10(numbexpr) | 以10为底的对数函数 | LG10(x*10)=1.41 |
LN(numbexpr) | 自然对数函数 | LN(y)=1.1 |
统计函数:
函数 | 说明 | 范例(X1=2,X2=5,X3=8) |
MEAN(numbexpr,numbexpr,.....) | 自变量的平均值 | MEAN(X1,X2,X3)=5 |
MIN(value,value,..) | 自变量的最小值 | MIN(X1,X2,X3)=2 |
MAX(value,value,..) | 自变量的最大值 | MAX(X1,X2,X3)=8 |
SUM(numbexpr,numbexpr,.....) | 求和 | SUM(X1,X2,X3)=15 |
SD(numbexpr,numbexpr,.....) | 求标准差 | SD(X1,X2,X3)=3 |
VARIANCE(numbexpr,numbexpr,.....) | 求方差 | VAR(X1,X2,X3)=9 |
CFVAR(numbexpr,numbexpr,.....) | 求变异系数 | CFVAR(X1,X2,X3)=0.6 |
变异系数是概率分布离散程度的一个归一化度量,其定义为标准差与平均值之比。变异系数只有在平均值不为0时有定义,而且一般适用于平均值大于零的情况。变异系数也称为标准离差率或单位风险。
比起标准差来,变异系数的好处就是不需要参考数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
(3)SPSS条件表达式
由SPSS关系运算符、逻辑运算符、SPSS函数以及SPSS变量名组成的式子。
关系运算符:>、=、
逻辑运算符:&或AND、|或OR、~或NOT
变量计算生成一个新的变量。
操作:转换-计算变量-目标变量(设置新的变量名)-然后填写数据表达式-可以设置条件表达式
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。