基础学习软件SPSS(基础学习软件数据分析)「软件学堂spss」

作者：郑铿城，经济学博士，数学建模指导教练开头，和大家讲个笑话spss软件在数据处理分析中有较广的运用，适合各类学习群体，就算学习者不会编程，也可以通过spss软件实现数据的处理和模型的建立。
以下归纳了spss软件中一些比较常用的功能和操作步骤，全是干货哦。

1.熟悉变量窗口和数据窗口数据窗口是我们打开spss一开始时，其页面所展现的窗口，主要用于输入相关的数据，在其页面中有相关的操作栏项目，可以进行对数据的具体分析。
如下：对于变量窗口，是对数据的变量做相应的改动调整的窗口，包括对数据的名称、类型、宽度、小数位、标签、度量标准等等。
在spss左下方有变量窗口和数据窗口的转换按钮，即可选择不同的窗口进行操作：2.学会数据输入数据输入有两种，一种是手动输入数据，一种是通过已经有的excel数据，对数据进行键入。
手动输入比较简单，就是在数据窗口把自己想要用的数据打入即可，然后点击左下方选择变量窗口，对数据的属性进行相应的调整。
对于使用已经有的数据，并把数据键入，要注意以下问题：首先数据是以列来排序，即每一列代表一种数据，如果你的数据是每一行代表一种，那么你需要对你的数据进行转置处理。
比如我们键入以下数据：那么在spss窗口中，点击“文件”--“打开”--“数据”选择想要键入的数据，会弹出这样一个页面，注意，要选择打钩。
初试数据键入以后，效果是这样的:我们可以点击到变量窗口，进行相关的调整，使数据看起来更加的好看一点，比如统一小数位，调整数据所在行的宽度等，结果如下：3.数据管理这个就很简单了，一些相关的参考书中，主要讲了把数据进行纵向和横向的合并，对数据进行拆分，对数据进行汇总，对数据进行加权，对数据进行查找。
这些都很简单，比较有意思的应该是数据的汇总和加权，数据汇总可以通过数据的均值、中值、总和、标准差等标准进行汇总，数据的加权通过“数据”--“加权个案”实现。
4.统计描述分析用spss进行统计描述分析，主要有三个板块，一个是频数分布描述；一个是描述性统计分析；一个是探索性分析。
首先讲一下频数分布：频数分布就是用来对数据的集中趋势和离散程度进行描述，通过频数分布图、条图和直方图等，来更加形象的说明数据的分布特征。
步骤是：“分析”--“描述统计”--“频率”，通过相应程序的操作，假设输入以下数据：通过频数分布描述的spss步骤运行，同时进行相关的设置：得到的结果如下：上图反映的是这些输入数据的均值、中值、众数等特性。
上图反映的是频率的一个情况，可以清楚的看出每个型号都频率。
最后也得出了上图这个直方图。
然后我们来说一下描述性统计分布，命令为：“分析”--“描述统计”--“描述”。
这个主要也是用来计算描述集中趋势和离散趋势的各种统计量。
（此外还有一个重要的功能是进行标准化变换即Z变换），这个和上面那个频数分布其实大同小异吧，都是用来体系数字的特征的。
举个栗子，我键入以下数据，进行描述性分析：通过的运行，最终得出的结果如下图：（确实，也就是各类统计量，像极大值极小值标准差等）最后，该部分的最后一个版块，即探索性分析，这个的话是建立在对数据有一定的了解的基础上，对数据进行更加深入的分析（你可以理解为这种方法做出的图看起来更加牛逼了）举个栗子，我还是用一些数据进行操作：spss命令为：“分析”--“描述性统计”--“探索”。
操作如下：最终得到的结果：上面这个当然就是简单的数据描述。
还有一个以“南北”分开进行的描述。
还可以得到一个这样的图：还可以操作出茎叶图等图形。
在前面的操作中，我们从输出窗口可以看到代码，其实这就是spss的运行代码，系统自动生成的，如果你是用spss进行建模写作的话，这些代码就可以复制到你的论文的附录部分。
如：5.均值检验均值检验也叫means检验，很好理解，就是求数值均值的过程，在spss中的命令为“分析”--“比较均值”--“均值”，这个比较easy，也好理解，就不做例子。
这个比较均值窗口中包括了像单样本T检验，独立样本T检验，配对样本T检验和单因素分析，这些内容其实也是大同小异，可以输入数据尝试输出结果，总结一点：在输出结果中要看到sig值，也就是我们说的P值，这个值如果是小于0.05的（显著性一般为0.05），那么就表明两个数据个体是有差异的。
你也可以从概率的角度来理解（p值如果小于显著性水平，则应该拒绝原假设，认为样本之间存在差异）。
当然我们也可以对这些概率做一个区分：单样本T检验的目的是利用某总体的样本数据，推断该总体的均值是否与指定的检验值存在显著性差异；独立样本T检验的目的是利用两个总体独立的样本，推断两个总体的均值是否有差异。
匹配样本T检验的目的是用两个不同的总体的配对样本，来推断两个总体的均值是否存在差异。
其实吧，都是在分析两个东西的差异性。
怎么从他输出的结果来看呢，其实就抓住P值来分析即可。
6.方差分析在比较两组资料的均数是否相等的时候，可以采用的是T检验，当组数大于等于3的时候，就应该使用方差分析。
方差分析的原理不再赘述。
在进行方差分析中，要学会通过LSD方法看出组数之间的差异。
具体命令：“分析”--“比较均值”--“单因素ANOVA”在设置对话框中选择LSD方法，从输出结果来进行分析。
举个栗子：有三组企业和对应的寿命：利用单因素ANOVA方法，选取LSD进行操作得到的结果如下：由上表可知显著性的大小为0.05，那么如果两个组别的显著性大小比0.05大，则接受原假设，认为两个组别是无差异的，那么通过上表可以看出1组和3组是无差别的，1组合2组是有差别的，2组合3组也是有差别的。
7.利用spss进行绘图绘图操作是一项重要技能，利用spss进行绘图，操作简单快捷，只需要对数据进行选择，然后点击自己想要绘制的图形格式即可。
当然绘图的时候你数据窗口中要有数据，具体可以自己实验一下。
假设我们要绘制一个时间为横坐标，GDP为纵坐标的二维直方图，即可进行操作得到如下结果：当然在第二个绘图指令中，还可以进行这样的操作：你选择几个变量，就会有相应的几维图形。
（最多构造三维哦）在绘图中，点击“旧对话框”会显示下面内容：同理根据自己的需求进行图形的绘制。
8.缺失值分析理解这个很简单，就是我们在数据收集的过程中，可能存在数据的缺失，那么数据的缺失就会对我们的处理结果造成一定的影响。
利用spss软件对缺失值进行处理，使我们分析的相关结果更加合理。
对缺失值的处理方法有很多，包括什么直接删除法、或者用什么数据来进行替代，也可以用EM或者回归的方法，从未缺失的数据分布情况中推算出缺失的数据的估计值。
“分析”--“缺失值分析”首先我对之前的那份GDP数据进行故意挖空，形成缺失现象，便于进行分析：主要挖了三处空，然后利用spss缺失值分析中的EM进行数据的缺失处理，得到下图：这样就完成了缺失值的处理，当然也可以用回归的方法。
9.简单线性回归和相关性分析先讲相关性，相关性用r表示，r值为正则正相关，反之则为负相关。
r的绝对值越大，则相关性越强。
可以用spearman等级相关系数来看相关程度。
举个栗子：利用下面数据做相关性分析并构造回归模型。
当然kendall和pearson相关系数也是可以表示相关性的，都差不多。
通过这个pearson相关系数（等于0.971）可以看出两个变量的相关性很强。

得到的spearman系数和kendall系数也是接近于1的，表明两个变量之间确实存在的正的相关性。
再利用回归方法确定出模型：如下图所示进行相关设置：进行操作，得到的结果如下：通过上表，则我们的回归模型为：（设患病率为Y，碘含量为X）Y=17.484+4.459X。
10.Logistic回归模型如果要分析的数据是分类变量，那么可以采取logistic回归模型对数据进行分析，首先讲一下二项分类的logistic回归，该模型的方程为：P=1/(1+EXP(-b0+b1x1+b2x2+...+bnxn))通过spss确定出上述方程的系数，即可确定出该模型。
举个栗子：查看变量窗口：y表示康复情况，y=0则是没有康复，y=1则是康复，x1表示病情的严重程度，x1=0则表示病情不严重，x1=1则表示病情严重。
x2表示疗法，x2=0则表示新疗法，x2=1则表示旧疗法。
并进行如下设置：结果为：通过上表，可以得到二元logistic回归模型为：P(Y=1)=1/(1+EXP(-0.928-0.909X1-1.669X2))即疗法的新旧对于康复情况是有影响的，当疗法比较就新的时候，康复的概率会更高一点。
当然logistic回归除了有二项的以外，还有有序的logistic回归，条件logistic回归等。
方法类似。
方法总结，对于该部分的logistic回归方程，首先你要确定你要使用哪个类型的logistic回归模型，然后去寻找该模型的一个表达式，再通过spss软件，求出系数，把系数代入表达式，即可构造出模型。
比如上述中确定了二项logistic回归的表达式：那么通过spss确定系数以后，代入表达式即可得出模型。
11.聚类方法物以类聚，人以群分。
对数据或者样本进行聚类，了解对象的类别，具有一定的探索性。
聚类的原理是什么呢，很简单，就是通过距离和相似系数进行聚类，其原理不再说明。
常用的有k均值聚类和系统聚类。
举个栗子：对以上数据进行聚类：“分析”--“分类”-“k-均值聚类”同时确定分类数：由于设置的是聚类成两类，所以结果显示如下：可以看出不同案例号对应的类别，当然你也可以尝试设置成4类等，看看结果会发生什么变化。
（如下）也可以进行系统聚类：比如对这些数据进行系统聚类：得到的一个垂直冰柱图和树状图：12.主成分分析、因子分析这里用的是一个降维的思想，从一堆变量中，选取出一些主要变量进行分析。
主要还是通过特征根的大小来衡量。
主成分分析和因子分析到底有什么异同？大家可以先自行了解一下，提示：主成分分析实质是线性变换，无假设检验，因子分析是统计模型，有些因子模型可以做假设检验，其次主成分分析在spss操作中不需要旋转，而因子分析则需要旋转。
举一个因子分析例子，并通过构造碎石图、做球形检验和旋转来看看因子分析的具体操作：其x1到x9分别表示：选择“分析”--“降维”--“因子分析”：得到的结果如下：碎石图怎么看？看斜率，前3的成分的斜率比较陡峭，故可以用前三个元素来代表所有元素。
从球形检验这个表，可以看出KMO值大于最低标准0.5，所以适合做因子分析，同时P值小于0.001，适合做因子分析。
也可以看到没有旋转之前的成分矩阵和旋转以后的成分矩阵：那么我们就可以去说明前3个因子中，他们各自的什么含量成分比较大，同时进行相应的说明。
13.信度分析这个方法是用在调查问卷中的，信度就是反应测量结果的一致性和稳定性。
在spss中的操作为“分析”--“度量”--“可靠性分析”做一个例子分析：对上表的结果做一个信度分析：得到信度结果：cronbach“阿发”的系数为0.811，故该试卷的信度较好。
从下面这个表，可以看出：有一个crobanch的系数值大于0.811，这个就表明：如果在试卷中删除名解的话，会提高试卷的信度值。
最后再讲一个生存分析和Cox模型：生存分析是把生存时间和生存结果综合起来，对数据进行分析的一种统计方法。
举个栗子就懂了：（数据如下）通过“分析”--“生存函数”--“寿命表”得到：Cox模型：可以建立生存时间和危险因素之间的依存关系的模型。
命令：“分析”--“生存函数”--“COX回归”学完SPSS，对数据量化分析有了进一步的了解，SPSS不仅可以用在建模，也可以用在论文研究等领域，觉得ok就分享给身边的同学吧。