在医学统计中的简单应用

在医学统计中的简单应用 SPSS for Windows

内容 • 概述 • SPSS13.0的界面的认识 • 变量的定义和数据的输入 • 数据常用的一些编辑 • 常用统计学方法 • 曲线的绘制

概述 • SPSS的全称是：Statistical Program for Social Sciences，即社会科学统计程序。该软件是公认的最优秀的统计分析软件包之一。 • 作为统计分析工具，理论严谨、内容丰富，数据管理、统计分析、趋势研究、制表绘图、文字处理等功能，几乎无所不包。本次讲课以SPSS for Windows 13.0为蓝本，以医学领域的相关资料为例子，简单明了地介绍我们可能用到的常用使用方法。 • 优点使用简便，不用编程（SAS需编程）；同excel转换、强大的统计功能等

内容 • 概述 • SPSS的界面的认识 • 变量的定义和数据的输入 • 数据常用的一些编辑 • 常用统计学方法 • 曲线的绘制

SPSS的界面 SPSS的主窗口名为SPSS for Windows ，包括： 1、主菜单，包括10个项目 2、快捷编辑菜单 3、数据管理窗口，包括变量的定义和数据的输入 4、状态栏，窗口底部即SPSS Processor is ready 5、此外，还有一个输出窗口，即OUTPUT,是非活动窗口

主菜单 1、File：文件管理菜单，有关文件的调入、存储、显示和打印等； 2、Edit：编辑菜单，有关文本内容的选择、拷贝、剪贴、寻找和替换等； 3、View：视图； 4、Data：数据管理菜单，有关数据变量定义、数据格式选定、观察对象的选择、排序、加权、数据文件的转换、连接、汇总等； 5、Transform：数据转换处理菜单，有关数值的计算、重新赋值、缺失值替代等； 6、Analyze：统计菜单，有关一系列统计方法的应用； 7、Graphs：作图菜单，有关统计图和表的制作； 8、Utilities：用户选项菜单，有关命令解释、字体选择、文件信息、定义输出标题、窗口设计等； 9、Windows：窗口管理菜单，有关窗口的排列、选择、显示等； 10、Help：求助菜单，有关帮助文件的调用、查寻、显示等。

变量的定义和数据的输入 • Name 变量名 • Type变量类型 • Width 变量宽度 • Decimals 小数点 • Label变量标签 • Values 变量值标签 • Missing 缺失值 • Columns 变量显示宽度 • Align 变量对齐方式

在SPSS中，数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中，这两个菜单的内容如下所示：在SPSS中，数据文件的编辑、整理等功能被集中在了Data和Transform两个菜单项中，这两个菜单的内容如下所示： Data菜单项 Transform菜单项

数据的编辑 • 数据的打开File==>Open==>Data/output • 数据的增删、复制、粘贴，insert、cut或clear、copy • 数据的排序，Sort升序或降序 • 数据的搜索，Go to Case或Find • 数据的复制，Copy或paste • 数据的编码，对于一些连续变量如年龄等可通过recode等进行编码 • 数据的计算，Compute • 秩和检验中计算秩次，Ranks-Mean • 文件的拆分，Select cases（物理）和split（形式） sex • 文件的合并，add或Merge • 对于频数表资料（2 检验）要进行加权，即Weight • 数据文件的保存，可转换为excel等格式 • 奇异数据的发现和检查可用Frequencies或Explore等

数据的打开 File==>Open==>Data/output

数据的增删、复制、剪切、粘贴等

数据的排序，Sort升序或降序

数据的搜索，Go to Case或Find

数据的编码，对于一些连续变量如年龄等可通过recode等进行编码数据的编码，对于一些连续变量如年龄等可通过recode等进行编码

进行数据的计算，Compute

文件的拆分，Select cases（物理） 和split（形式）

文件的合并，Merge

数据的加权 weight 数据加权是对观测数据赋以权重，常用于频数表资料。加权后的数据被解释为频数。请选择菜单DataWeight Case命令，启动加权对话框。如图。

数据文件的保存，可转换为excel等格式

SPSS Analyze统计菜单功能介绍 • 描述性统计分析－－Descriptive Statistics菜单 • 均数间的比较－－Compare Means菜单 • 一般线性模型――General Linear Model菜单 • 相关分析――Correlate菜单 • 多元线性回归与曲线拟合―― Regression菜单 • 对数线性模型——Loglinear菜单 • 聚类分析与判别分析——Classify菜单 • 因子分析与对应分析——Data Reduction菜单 • 信度分析与多维尺度分析——Scale菜单 • 非参数检验――Nonparametric Tests菜单 • Survival菜单

描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中，最常用的是列在最前面的四个过程： • 描述性统计分析－－Descriptive Statistics 1.1Frequencies过程的特色是产生频数表 1.2Descriptives过程进行一般性的统计描述； 1.3Explore过程用于对数据概况不清时的探索性分析； 1.4Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验，我们常用的X2 检验也在其中完成。

均数间的比较－－Compare Means 该菜单集中了几个用于计量资料均数间比较的过程。具体有： 2.1 Means过程对准备比较的各组计算描述指标，进行预分析，也可直接比较。 2.2 One-Samples T Test过程进行样本均数与已知总体均数的比较。 2.3 Independent-Samples T Test过程进行两样本均数差别的比较，即通常所说的两组资料的t检验。 2.4 Paired-Samples T Test过程进行配对资料的显著性检验，即配对t检验。 2.5 One-Way ANOVA过程进行两组及多组样本均数的比较，即成组设计的方差分析，还可进行随后的两两比较。

一般线性模型――General Linear Model 一般线性模型可不是用一章就可以说清楚的，因为它包括的内容实在太多了。那么，究竟我们用到的哪些分析会包含在其中呢？简而言之：凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析（即单因素方差分析）、配伍设计的方差分析（即两因素方差分析）、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此，能真正掌握GLM菜单的用法，会使大家的统计分析能力有极大地提高。实际上一般线性模型包括的统计模型还不止这些，我这里举出来的只是从用SPSS作统计分析的角度而言的一些。

包括的四个子菜单： 3.1 Univariate子菜单：四个菜单中的大哥大，绝大部分的方法分析都在这里面进行。 3.2 Multivariate子菜单：当结果变量（应变量）不止一个时，可用他来分析。 3.3 Repeated Measures子菜单：顾名思义，重复测量的数据就要用他来分析；用前两个菜单似乎都可以分析出来结果，但在许多情况下该结果是不正确的，应该用重复测量的分析方法才对。 3.4 Variance Components子菜单：用于作方差成份模型的

相关分析――Correlate 在数据分析中经常要遇到分析两个或多个变量间关系的情况，有时是希望了解某个变量对另一个变量的影响强度，有时则是要了解变量间联系的密切程度，前者用下一章将要讲述的回归分析来实现，后者则需要用到本章所要讲述的相关分析实现。 SPSS的相关分析功能被集中在Analyze菜单的Correlate子菜单中，他一般包括以下三个过程：

4.1 Bivariate过程 此过程用于进行两个/多个变量间的参数/非参数相关分析，如果是多个变量，则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程，实际上我们对他的使用可能占到相关分析的95%以上。 4.2 Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的相关系数，这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。 4.3 Distances过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析，前者可用于检测观测值的接近程度，后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。

回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是Regression菜单的子菜单，是SPSS提供的用于回归分析的工具：回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是Regression菜单的子菜单，是SPSS提供的用于回归分析的工具： • 多元线性回归与曲线拟合―― Regression 5.1 Linear过程——调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中，用户还可根据需要，选用不同筛选自变量的方法（如：逐步法、向前法、向后法，等）。 5.2 Curve Estimation过程——Curve Estimation过程可以用与拟合各种各样的曲线，原则上只要两个变量间存在某种可以被它所描述的数量关系，就可以用该过程来分析。但这里我们要指出，由于曲线拟合非常的复杂，而该模块的功能十分有限，因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析，或者采用其他专用的模块分析。

5.3 Binary Logistic过程——所谓Logistic模型，或者说Logistic回归模型，就是人们想为两分类的应变量作一个回归方程出来，可概率的取值在0~1之间，回归方程的应变量取值可是在实数集中，直接做会出现0~1范围之外的不可能结果，因此就有人耍小聪明，将率做了一个Logit变换，这样取值区间就变成了整个实数集，作出来的结果就不会有问题了，从而该方法就被叫做了Logistic回归。随着模型的发展，Logistic家族也变得人丁兴旺起来，除了最早的两分类Logistic外，还有配对Logistic模型，多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限，对话框只能完成其中的两分类和多分类模型，下面我们就介绍一下最重要和最基本的两分类模型。

对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。它是一种比较新型的分析方法，在分析高维列联表时优势尤为突出。由以下三个过程组成：对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。它是一种比较新型的分析方法，在分析高维列联表时优势尤为突出。由以下三个过程组成： 6.1 General过程——用于进行一般对数线性模型分析，主要用于证实性研究。此时研究人员只对某些特定效应感兴趣，即已经有关于模型的假设，此时就可以采用一般模型来检验这一假设是否正确、充分，它可以对总模型和各个参数给出详细的检验结果。对变量不分因变量自变量，在分析中一视同仁，最后在结果解释时才由研究人员来做出判断。 6.2 Logit过程——当研究人员已经有了一些线索，知道因变量自变量时，如果应变量为两分类，就可以用这个过程来分析。 6.3 Model Selection过程——分层对数线性模型。一般线性对数模型可以对每个系数及总模型给出非常丰富和详细的信息，但是它要求研究人员心中已经有了一定的思路或线索，或只对某些特定效应项感兴趣，即已经有关于简约模型的假设。如果在探索性分析中研究人员中只是设想若干分类变量之间可能有关系，但是并无明确假设，也没有具体分出哪个是应变量、哪个是自变量，此时比较适宜采用分层对数线性模型分析。 • 对数线性模型——Loglinear

聚类分析和判别分析都是将记录或变量分类的方法，所不同的是聚类分析是把没有分类信息的资料按相似程度归类，有一定探索性的味道；而类别分析则是从已知的分类情况中总规律，为以后判断新观测所属类别提供依据。 Classify菜单提供如下三个过程： 7.1 K-means Cluster过程——对记录进行快速聚类，当明确所需要分出的类别数时，采用快速聚类可以节省运算时间。根据经验，如果样本量大于100，则有必要考虑是否使用快速聚类。 7.2 Hierarchical Cluster过程——习惯上翻译成系统聚类法，该过程提供了全面而强大的聚类分析能力，可对记录或变量进行聚类。更为重要的是，参与系统聚类分析的变量不再像快速聚类一样限于连续性变量，它们可以是两分类或多分类变量。 7.3 Discriminant过程——提供了全面的类别分析功能，所用变量可一次进入，也可以使用逐步法筛选出最优类别方程。 • 聚类分析与判别分析——Classify

因子分析与对应分析——Data Reduction 该方法主要目的都是浓缩数据，或称数据化简，即以最少的信息丢失为代价将众多的观测变量浓缩为少数几个因素，从而简化问题，或发现事物的内在联系： 8.1 Factor过程——提供因子分析/主成分分析方法，它们是最为常用的数据简化方法，用于考察多个定量变量间的内在结构，或者提取数据的主要信息。 8.2 Correspondence Analysis过程——进行简单对应分析，该方法同样以数据简化的原则力图直观的给出各两个分类变量各个类别之间的联系，当各个变量的类别越多时，该方法的优势就越明显。 8.3 Optimal Scaling过程——进行最优尺度分析，该方法的核心目的也是力图在低维度空间表述两个或多个变量之间的内在联系。所分析的变量以分类变量为主，但也可以为连续性变量。该方法实际上包括，但不仅仅限于对应分析方法。

在Scale菜单提供的几种统计方法都属于尺度分析的范畴，它们是探索研究事物间的相似性/不相似性的专用技术。具体来说，这些方法和用途是：在Scale菜单提供的几种统计方法都属于尺度分析的范畴，它们是探索研究事物间的相似性/不相似性的专用技术。具体来说，这些方法和用途是： 9.1 信度分析：用于评价问卷这种测量工具的稳定性或可靠性，具体来说就是用问卷对同一事物进行重复测量时，所得结果的一致性程度。Reliability Analysis过程可以进行内在信度分析，即评价问卷中各个问题是否测量的是同一个概念。 9.2 多维尺度分析：用于反映多个研究事物间的相似（不相似）程度，通过适当的降维方法，将这种相似（不相似）程度在低维空间中用点与点之间的距离表示出来，并有可能帮助识别那些影响事物间相似性的潜在因素。这种方法在市场研究中应用得非常广泛。Multidimensional Scaling过程和Multidimensional Scaling(PROXSCAL)过程都是专门用于多维尺度分析的过程。 • 信度分析与多维尺度分析——Scale

作为二十一世纪统计理论的三大发展方向之一，非参数统计是统计分析的重要组成部分。可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善，因而比较完善的可供使用的方法也不多。比如多组均数间的两两比较，虽然已有好几种方法可资利用，但由于在理论上仍存在争议，几种权威的统计软件（如SAS和SPSS）均没有提供这方面的方法。作为二十一世纪统计理论的三大发展方向之一，非参数统计是统计分析的重要组成部分。可是与之很不相称的是他针对一般性统计分析的理论发展远远不及参数检验完善，因而比较完善的可供使用的方法也不多。比如多组均数间的两两比较，虽然已有好几种方法可资利用，但由于在理论上仍存在争议，几种权威的统计软件（如SAS和SPSS）均没有提供这方面的方法。虽然这些洋统计软件没有提供两两比较的非参数方法，但国产的统计软件大都是提供了的（国情不同嘛），因此建议大家：如果真的要做这方面的非参数分析，不如直接用PEMS、SPLMWIN、NOSA等国产软件，免得用SPSS等只能做一半。在SPSS中，几乎所有的非参数分析方法都被放入了Nonparametric Tests菜单中，具体来讲有以下几种： • 非参数检验――Nonparametric Tests

Chi-square test：用卡方检验来检验变量的几个取值所占百分比是否和我们期望的比例没有统计学差异。比如我们在人群中抽取了一个样本，可以用该方法来分析四种血型所占的比例是否相同（都是25%），或者是否符合我们所给出的一个比例（如分别为10%、30%、40%和20%，我随便写的）。请注意该检验和我们一般所用的卡方不太一样，我们一般左的卡方要用crosstable菜单来完成，而不是这里。 • Binomial Test：用于检测所给的变量是否符合二项分布，变量可以是两分类的，也可以使连续性变量，然后按你给出的分界点一刀两断。 • Runs Test：用于检验某变量的取值是否是围绕着某个数值随机地上下波动，该数值可以是均数、中位数、众数或人为制定。一般来说，如果该检验P值有统计学意义，则提示有其他变量对该变量的取值有影响，或该变量存在自相关。

在医学统计中的 简单应用