IT小白

这个屌丝很懒，什么也没留下！

热门标签

SPSS统计分析（持续更新中......）_离散缺失值

作者：IT小白 | 2024-06-16 13:32:32

踩

离散缺失值

文章目录

前言
第一章
第二章
第三章

前言

此篇文章是我在B站学习时所做的笔记，部分为亲自动手演示过的，方便复习用。此篇文章仅供学习参考。

提示：以下是本篇文章正文内容，下面案例可供参考

第一章

1、定义变量

1.1 变量名

为了方便记忆，变量名最好与其代表的数据含义相对应。变量名是变量存取的唯一标志。在定义SPSS数据文件结构时应首先给出每列变量的变量名。

首字母必须用拼音、汉字或者@
不能用数字、空格、!、?开头
变量名不区分大小写，默认名以VAR开头
不能用$开头，程序中也不可用
避免最后一个字符用点号或下划线
不能用系统保留的变量，比如说ALL、with、NOT…

1.2 宽度

数值宽度就是输入字符的个数

1.3 标签

变量名标签是对变量名含义的进一步解释说明，它可增强变量名的可视性和统计分析结果的可读性。

1.4 值

在这里插入图片描述
离散缺失值就是设置这几个值系统分析时碰到当做缺失值处理，缺失值的产生是由于明显错误或者不合理的数据

1.5 测量

度量：又称定距变量或刻度变量，一般为有刻度度量的连续变量，它的取值之间可以比较大小，且可以定义距离，是可以加减乘除的变量。例如“年龄”、“年份”等。

有序：一种分类变量，但是变量取值之间有内在的大小顺序或等级。例如“满意度”变量的取值为1-很不满意、2-比较满意、 3-非常满意，由小到大的取值代表满意度的提高。有序也是定序变量，变量之间不仅有类别之差，还有固有的顺序，比如年龄组老中青

名义变量就变量与变量之间只存在类型的差距，没有排序，名义只有名称，不能比大小，比如男女

输入——代表自变量，因为自变量是需要输入的。
分区和拆分两者用的不多，基本上不会使用的

2、数据导入和查看

方法一

在这里插入图片描述
自己选择文件格式，范围也可以自己选择

方法二

在这里插入图片描述

显示工作文件

在这里插入图片描述

3、数据的编辑和输出

3.1 插入变量

在这里插入图片描述

3.2 清除变量

在这里插入图片描述

3.3 插入个案

在这里插入图片描述

3.4 清除个案

在这里插入图片描述

3.5 保存

方法一

在这里插入图片描述

方法二

在这里插入图片描述

第二章

1、数据排序

1.1 个案排序

在这里插入图片描述

1.2 变量排序

在这里插入图片描述

2、数据转置

数据转置：将数据编辑窗口中数据的行列互换，即将个案转为变量，变量转为个案后，重新显示在数据编辑窗口

原来的数据显示：
在这里插入图片描述
操作：选中第1个按住shift选中最后一个即可全选

结果：

如果未全选，会丢失数据

3、数据文件的合办

3.1 添加个案

先同时打开两个文件。
在这里插入图片描述

结果：

“非成对变量”中显示的是两个数据变量中不匹配的变量名，变量名不同的变量或者变量名相同但定义不同的变量
*代表当前工作数据文件中的变量
+是来自外部文件的变量
新的活动数据集中的变量是两个数据集共有的
“academy”与“学院” 是同样的定义只是变量名不同，他们要加入新的活动数据集中的变量，他们也要合并，则选中这两个进行配对，两个数据中变量名不同但含义和属性相同的，用配对解决（即配对：两个的属性和值相同，单纯的变量名称不一样。）合并完就可以进行数据分析
课程性质中上面空白，下面有数据，是因为数据集01没有这些数据，而数据集02有
source01中 0表示来源于当前数据集，1表示数据集2的外来数据集

3.2 添加变量

横向合并实质上是将两个数据文件的个案，按照个案的对应，一一进行左右对接
对于相同个案，变量不同的进行合并
关键变量：显示用以标识和匹配不同文件的个案的变量，当两个数据文件的排列顺序不一致时，可以指定关键变量，但需要先将数据文件按照关键变量值进行升序排列。若未进行排序，SPSS将直接横向合并，将导致合并错误
非活动：是以源文件为基准，外部文件的新变量加入到源文件中，反之亦然。就是哪个数据集多个案，就选另一个数据集为基于关键字的表
活动数据集是后加的文件，非活动数据集是原文件
当前文件里的是非活动数据，要合并进来的文件里的是活动数据

打开两个文件
在这里插入图片描述

基于文件顺序的一对一合并

在这里插入图片描述

基于键值的一对一合并

在这里插入图片描述

基于键值的一对多合并

在这里插入图片描述

4、数据文件的结构重组

原数据显示：

在这里插入图片描述

4.1 选定变量重构为个案

等于把一个人测的六次数据从变量变成了个案，用批次表示
在这里插入图片描述

在这里插入图片描述

4.2 选定个案重组为变量

在这里插入图片描述

5、分类汇总

再选一次（成绩）的原因是不止要统计成绩的平均值，还要统计最大值、最小值等等
个案数：表示在分类结果中，用一个变量显示每个分类类别中观测量的个数
这里保存框里选择创建那一行，输出的结果就是只有那四种组合
汇总的是相同性别和类型学生的成绩

原数据显示：
在这里插入图片描述

最后一列N_BREAK代表性别和学生类型相同的的个数，如：第一行性别和学生类型都为2的总共有19个。

6、文件拆分

根据指定的分组变量对原始数据进行分组，使得分组变量取值向量的个案集中在一块儿，有利于比较和观察。

比较组：指将文件拆分后的分组以比较组的形式显示。
按组织输出：指按分组变量的取值排序输出。

拆分文件会一直起作用，即无论进行哪种统计分析，都是按拆分变量的不同组分别进行分析计算，如果希望对所有数据进行整体分析，则需要重新进行数据拆分。和排序有区别排序后分析是总体分析，拆开后分析可以只分析性别1学生类别2的个案

原数据显示：
在这里插入图片描述

6.1 比较组

在这里插入图片描述

6.2 分析所有个案，不创建组

在这里插入图片描述

7、选择个案

原数据显示：
在这里插入图片描述

7.1 选择所有个案

在这里插入图片描述
结果：

7.2 如果条件满足

在这里插入图片描述
结果：filter=1的就是符合if条件的

7.3 随机个案样本

在这里插入图片描述
结果：filter=1的就是符合所选样本条件的

7.4 基于时间或个案范围

在这里插入图片描述
结果：（未开启过滤器）

7.5 使用过滤变量

将选定个案复制到新数据集

在这里插入图片描述
结果：重新生成新的数据集

删除未选定的个案

在这里插入图片描述
结果：只在原数据集中把慢性咽炎留住，其他给删除了

8、个案加权

加权个案：变量数字表示的是出现频次
不加权就会直接显示行变量的值，而不是数值。比如最后分析回显示唱歌喜不喜欢而不是人数的值。就是人数是重合的数字需要出现两次因为有喜欢跳舞喜欢唱歌也有喜欢唱歌跳舞的这样人数总数才对。加权之后代表个数或数量，不加权就代表一个数字
看起来没变化，但是如果这种数据要做方差分析什么的就必须先加权

原数据显示：
在这里插入图片描述

8.1 不对个案加权

在这里插入图片描述

在这里插入图片描述
结果不对

8.2 对个案进行加权

在这里插入图片描述

结果正确：

9、计算新变量

计算新变量的原因：好多变量不是对原变量进行分析的

原数据显示：
在这里插入图片描述

10、对个案内的值计数

原数据显示：
在这里插入图片描述

在这里插入图片描述

结果：在选定好的测定地点1中显示数据，健康列在健康等级为1和2的所在行显示1，在健康等级为3的所在行显示0

11、变量的重新编码

原数据显示：
在这里插入图片描述

11.1 重新编码为相同的变量

在这里插入图片描述

结果：

11.2 重新编码为不同变量

在这里插入图片描述

在这里插入图片描述

结果：新变量3和新变量4相当于按拼音字母或者数字顺序重新用数字序号排列。那张飞为什么和张三的数值是不一样的？因为第二个字是F和S，这样的作用可能是可以按字母排序，飞f比三s顺序靠前一点，这个自动排序就是依次按123456排下去的。
在这里插入图片描述

12、个案等级排序（个案排秩）

在这里插入图片描述

R全氮、R全磷、R全钾就是按升序排序，把排名表示出来。

第三章

1、频数分析

四分位数：四分位数（Quartile）也称四分位点，是指在统计学中把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。就是将100%等分为四份，分隔点是25%、50%和75%。
百分位数：指样本总体中,在此样本值以下的样本数占总样本数的百分比。不对等抽样，就是百分位数
分割点相当于等距抽样
标准偏差：一种度量数据分布的分散程度之标准，用以衡量数据值偏离算术平均值的程度。标准偏差越小，这些值偏离平均值就越少
范围就是极差
偏度：可以用来度量随机变量概率分布的不对称性。
几何意义：
偏度的取值范围为(-∞,+∞)
1.当偏度<0时，概率分布图左偏。
2.当偏度=0时，表示数据相对均匀的分布在平均值两侧，不一定是绝对的对称分布。
3.当偏度>0时，概率分布图右偏。
峰度：可以用来度量随机变量概率分布的陡峭程度。峰度值越小，越矮胖。
标准化：用公式表示为：z=(x-μ)/σ。其中x为某一具体分数，μ为平均数，σ为标准差。
Z值的量代表着原始分数和母体平均值之间的距离，是以标准差为单位计算。在原始分数低于平均值时Z则为负数，反之则为正数。