0%

SPSS

一、定义变量

1、SPSS中变量的名字不区分大小写,也就是说AAA和aaa是一个变量。
2、值可是设置值的别名,比如1->男、2->女,为某个值设定具体的意义。

二、数据导入和查看

emm就会了从excel和txt中导入数据。

三、数据的编辑和输出

1、变量的插入:数据视图,在要插入的变量的位置选中当前变量(当前列),右击在菜单中选中插入变量。变量视图与此相同。
2、清除变量:数据视图,选择要清除的变量(当前列),右击,选中清除。与此相同。
3、清除个案:选中个案(当前行),右击菜单选择清除。
4、将当前数据集输出:文件->另存为,可以直接将当前数据集全部输出,如果要输出单个变量,那么就点击变量,勾选相应变量,即可输出相应变量的数据。

四、数据排序

1、数据->排序个案->选择排序依据->选择降序or升序。
2、对于相同的树高,还可以增加排序依据,使得在树高内部,按照选择的排序依据进行再次排序。
3、数据->排序变量,可以按照变量的某个指标对它们进行排序。

五、数据转置

1、将原来的行变成列,将原来的列变成行。
2、数据视图下,数据->转置->名称变量框下的变量会变成变量名(列);变量框下的变量会变成观测量(行)。
横向是个案,纵向是变量。

六、数据文件的合并

1、个案合并
做法:数据->合并文件->添加个案
*代表主工作文件的变量,+代表外部待合并的数据集的变量。
配对的作用是将两个数据集中的属性相同,但名称不一样的变量进行合并。
2、变量合并
做法:数据->合并文件->添加变量
关键变量:用来标识和匹配不同文件的个案的变量
勾选匹配关键变量的个案,就可以选择关键变量。同时在合并之前要对关键变量进行排序,勾选下面一个框框即可。
(一)勾选非活动数据集为基于关键字的表,关键变量以当前数据集为基准,外部文件匹配成功则加入,不成功则不加入。比如关键变量是课程编号,活动数据集编号缺少2,则与外部文件合并之后依然没有2(即使外部文件里有2)。因为合并是基于活动数据集的关键变量。
(二)勾选活动数据集为基于关键字的表,关键变量以外部文件为基准,活动数据集匹配成功则加入,不成功则不加入。比如对于课程编号来说,外部文件缺少8,则合并之后依然没有8(即使活动数据集里面有8)。因为合并时基于外部文件的关键变量。
(三)勾选两个文件都提供个案,则两个文件中的关键变量可以互补。

七、数据文件的结构重组

数据->重组
1、将变量重组为个案(如ph1、ph2···ph7合并为ph值变量,由索引来显示原来的批次变量)
效果:将多个批次变量合并成一个变量
目标变量:参与重组后变量的名字。
固定变量:不进行重组但仍然出现在转换结果中的变量。
2、将个案重组为变量(如将上文中批次按照批次一、批次二···分开成多个变量,呈现出ph1、ph2、ph3···的效果)
效果:将一个批次变量分开成多个变量

八、分类汇总

分类汇总就是按照制定的分类变量对观测量进行分组。
数据->分类汇总
1、分组变量是分组的根据,变量摘要被观测的变量,点击函数按钮可以选择观测的统计量,如均值、最大值、最小值···
2、N_BREAK显示了每个分组里有多少个观测量

九、文件拆分

文件拆分是根据指定的分组变量对原始数据进行分组,使分组变量取值相等的个案分到一组,有利于比较和观察。通俗来讲,就是将分组变量相同的个案放在连续的区间。
数据->拆分文件
选项一:分析所有个案,不创建组。——这个选项可以恢复未拆分时的状态。但并不能还原数据的顺序。
选项二:比较组(在例题中使用)

十、选择个案

在较大数据量中对一部分的数据进行统计。
数据->选择个案
选择框下的全部个案:无差别进行个案的分析。
选择框下的如果条件满足选项->点击如果->进入条件编辑界面:类似于Excel中的筛选。
选择框下的随机个案样本:随机选择个案。
选择框下的基于时间和个案全距:只在设定的范围内随机选择个案。
选择框下的使用筛选器变量:可以以一个变量的取值为基准,对数据进行筛选。

十一、个案加权

对不同的观测量定义不同的权重。
数据->加权个案
查看加权效果
分析->描述统计->交叉表
如果选择的加权个案是人数,那么在交叉表中会显示各个分组的人数比重,如果不显示按照人数进行加权,那么最后结果就显示的各个分组的个案数,而人数的权值相当于是0,不参与交叉表的分析。

十二,计算新变量

转换->计算变量
目标变量里填写新变量名字,在类型与标签按钮中可以为新变量设置标签。如果按钮可以对符合一定条件的个案创建新变量的个案。
不符合条件的个案保持原始值不变移动到新变量下的方法:将新条件设置为原条件的非,然后修改新变量的数学表达式以达到目的。

十三、对个案内值的计数

转换->对个案内的值计数
目标变量就是计数产生的变量,也就是用于计数的变量。
然后将想要计数的变量(比如想要健康等级变量里等级为1的个数)选入变量框中。
然后点击定义值按钮,在‘值’框中输入想要计数的值(比如健康等级为1的个案)。其中系统缺失用于计算系统缺失值的计数;范围是计算在范围内的个案数量;范围,从最低到值适用于计算小于某个特定值的个案数量;范围,从值到最高适用于计算大于某个特定值的个案数量。
注意,在输入要计数的值或是其他操作完成后要记的点击添加,否则没用。
分析->描述统计->频率
可以与前者的操作搭配使用,统计一下符合要求的新变量个案的频率。

十四、变量的重新编码

转换->重新编码为相同变量
相当于对原变量的数值进行查找替换。
点击旧值和新值按钮,然后在旧值和新值栏目下分别输入对应的数值,然后点击添加。旧值中的系统缺失值和新值中的系统缺失值要对应起来。总之,和Excel中查找替换很像。

转换->重新编码为不同变量
相当于创建一个新变量对原变量的数据进行查找替换
将旧变量选入到数字变量->输出变量的框中,然后在输出变量的栏目下输入新定义的变量的名字并添加标签后,点击更改,然后就看到这个名字出现在了数字变量->输出变量的框中,与旧变量相对应。
然后点击旧值和新值按钮,这里的操作和重新编码为相同变量的过程基本相同,就是在新值栏目下多了一个复制旧值:意思是这些值不进行重新编码,直接复制旧变量中的数值就可以。
最下面有一个选项是输出变量为字符串,可以勾选这个选项将数值型变量变成是字符出类型的变量。
注意:范围选项中区间默认为左闭右开区间。

转换->自动重新编码
选中旧变量,在新变量框中输入名称,可以设置新变量名称。
重新编码的起点:就是变量内数值的零参考点。

十五、个案等级排序

是将个案排序的结果生成一个新变量,新变量的取值就是排序后的序列号。
转换->个案排秩
变量框中是将要进行排序的变量。
排序标准是对选中变量进行排序的依据,是依据这个标准对变量进行排序,而不是直接按照变量本身的数值的大小排序。
将秩1指定给栏目下可以选择按照排序标准从小到大排序还是从大到小排序。
结:当两个数字一样时(旧的序号分别是2和3),个案的序号可以是平均值(2.5),可以选择低的那个值(2),也可以选择高的那个值(3),顺序等级到唯一值(值相同也不会存在两个相同的序号)。

十六、频数分析

分析->描述统计->频率
勾选显示频率表格在结果中会显示频率的表格。
点击统计量按钮:
百分位值的四分位数是指将观测值分成了25%,50%,75%,100%四个组。
百分位值的分割点是指改变默认为四个的分组,将观测值分成任意个相等的组。
百分位值的百分位数是指将观测量按照自己给定的分组方式进行分组。

集中趋势:
平均值,平均数高就表现为集中趋势高,就是通过个案预测整体水平的趋势。

分布:
偏度是表示分布的对称性。
峰度是对集中于中点周围的观测值的程度的测量。

点击图表按钮:
可以选择绘制的图标的类型。

点击格式按钮:
排序方式中按计数的升序排序是指按照频数从小到大排序。
多个变量中的比较变量是指多个变量的频数表集中输出。
多个变量中的按变量组织输出是指每个变量单独输出一个频数表。

十七、描述性统计分析

分析->描述统计->描述
将待描述的变量选入变量框中:
如果勾选将标准化得分另存为变量,将所得出的结果在数据集中进行显示和储存。
选项按钮:离散和分布已经在频数分析这一节中解释过了。
显示顺序:当对多个变量进行描述统计时,输出的统计表中变量的排列方式。
如果在选项第一行勾选的是均值,则在数据集中创建的新变量的值是待描述的变量和平均值的差,如果为正,则大于平均值,反之,则小于。

十八、探索性分析

作用:能对数据进行过滤和检查,能识别离群值、极值、数据中的缺口及其他特征。对不满足的数据能提示转换方法。
分析->描述统计->探索
因变量列表选入需要进行探索的变量。自变量选入因子列表,比如想要探索性别对薪水的影响,薪水是探索的变量,性别是自变量。
输出框中勾选第一个是两者都,第二个统计量是只输出统计数据,第三个图是只输出统计图。

统计量按钮:
描述性是一些基本的统计量,平均值,中位数之类的。
M估计量:大概是用来估计数据在数据集中的位置。
界外值是输出最大值(5个)和最小值(5个)。

绘制按钮:
箱图———
按因子级别分组,每一个图只显示一个因变量。
不分组,并排的显示所有因变量。
描述性———
茎叶图主要是描述频数分布
直方图主要是描述具体数据的
勾选带检验的正态图:在结果图表中绘制正态分布图,便于进行观察。
伸展与级别Levene转换———
可以选择进行数据的转换,也可以不转换。

选项按钮:
主要是选择对缺失值的处理方案
按列表排除个案:有缺失值导致该列表全部被剔除。
按对排除个案:当前分析数据用到的变量中如果有缺失值,则将当前变量进行剔除。
报告值:将有缺失值的个案进行单独分析。

十九、联列表分析

联列表分析通过频数交叉表来讨论两个或多个变量之间是否存在关联,并提供了各种双向表检验和相关性测量。
先建立一个两个变量无关的零假设,然后通过显著性水平来决定是拒绝还是接收原假设。
分析->描述统计->交叉表格
层变量:如果增加一个年龄段变量,这个年龄段变量可以作为层变量,分析各个年龄段内性别与满意度是否相关

精确按钮:
仅渐进法:就是小于0.05时就认为相互独立。

单元格按钮:
隐藏较小计数:可以隐藏频数小于自定义值的计数。
我觉得这些设置一般就使用默认值就好。

格式按钮:
选择按照行变量的升序或者降序排列。