430 likes | 664 Views
SPSS 软件应用 S tatistical P roduct and S ervice S olutions. 公共卫生学院信息数据处理教学实验室. SPSS 软件简介. SPSS 是世界上最早的统计分析软件。美国斯坦福大学的三位研究生于 20 世纪 60 年代末开始研制,于 1975 年在芝加哥组建了 SPSS 总部。 1984 年 SPSS 总部首先推出了世界上第一个统计分析软件微机版本 SPSS/PC+ , SPSS 现在的最新版本为 13 ,大小约为 300M 。.
E N D
SPSS 软件应用Statistical Product and Service Solutions 公共卫生学院信息数据处理教学实验室
SPSS软件简介 SPSS是世界上最早的统计分析软件。美国斯坦福大学的三位研究生于20世纪60年代末开始研制,于1975年在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,SPSS现在的最新版本为13,大小约为300M。
SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮。使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮。使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
SPSS的界面类似 Excel 电子表格 • 以窗口方式管理数据; • 以菜单方式展示各种分析方法; • 以对话框展示出各种功能选择项; • 能方便的从其他数据库中读入数据; • 结果可以直接导出为WORD文档。 SPSS是非专业统计人员的首选统计软件。
第一节 数据管理 • 数据库的概念 数据值被安排在一个矩阵式的表格结构中 每一列表示一个变量(Variable) 每一行表示一个观测(Case)
一、新建数据文件 • 定义变量 单击数据表的左下角第二个标签 Variable View (或双击列标签VAR) 进入定义变量的界面: Name Type Width Decimals 变量名 类型 宽度 小数位数 • 输入数据 单击数据表的左下角第一个标签 Data View ,可以开始输入数据。 • 保存数据文件(*.sav) File Save打开保存文件对话框
二、打开数据文件 File Open Data或工具栏 文件类型有十余种: SPSS(*.sav) SPSS数据文件(6.0版~) SPSS/PC+(*.sys) SPSS 4.0版数据文件 SPSS portable(*.por) SPSS便携格式的数据文件 EXCEL(*.xls) EXCEL数据文件 Lotus(*.w*) Lotus数据文件 dBase(*.dbf) dBase系列数据文件 SAS Long File Name(*.sas7bdat) SAS8.0以上长文件名数据 SAS v6 for Windows(*.sd2) SAS6.12版数据文件 Text(*.txt) 纯文本格式的数据文件 Data(*.dat) 纯文本格式的数据文件 ……
三、编辑数据文件 • 数据集的行列转置 Data Transpose • 纵向合并数据集(增加观测) Data Merge Files Add Cases • 横向合并数据集(增加变量) Data Merge Files Add Variable
数据集分组分析 Data Split File • 选择部分观测 Data Select Cases • 指定变量为频数 Data Weight Cases • 按指定变量排序 Data Sort Case
四、从原有变量产生新的变量(一) Transform Compute 在 target variable框中键入新的变量名, 在 numeric expression框中写出计算公式 如:产生新的变量 LX 为原变量 X 的对数值 在 target variable框中键入新的变量名LX, 在右下的function框中找到“LG10()” 函数,向上选入,再到左边变量列表中找到原变量X,向右选入,在 numeric expression框中出现“LG10(X)”,OK
四、从原有变量产生新的变量(二) ① Transform Recode Into Different Variables ② 原变量选入 Input variables->outputvariable框,在output variable name框中键入新的变量,change ③ (如果必要的话)打开if 菜单:选 include if case satisfies condition ,在框中选入筛选的条件,continue ④打开 old and new values菜单:在左边一列中设定原变量的取值条件,在右边new value框中键入新变量的取值,add,continue 重复④可以设定新变量的其它取值, 重复③④可以设定其它条件下新变量的取值
第二节 统计描述 一、定量资料统计描述 1.简单统计描述 Analyze Descriptive StatisticsDescriptives 把左边窗口中变量选到右边Variable窗口, OK,可以计算Mean均数、Std. Deviations标准差、Minimum最小值、Maximum最大值。 • 点右下角Options键可以计算更多统计量:Variance方差、Range全距、S.E.mean标准误、Kurtosis峰度系数、 Skewness偏度系数等。
频数表资料计算 • 定义两个变量:组中值和频数 分别输入两列数据 • 菜单栏 Data Weight Cases 打开 Weight Cases对话框 选中 Weight Casesby 把频数选入右边 Frequence tables框中 然后再对变量组中值作统计描述
2.详细统计描述(包括详细频数表) Analyze Descriptive StatisticsFrequencies 把左边窗口中的变量选到右边Variable窗口, OK。 • 点Statistics选统计量:集中趋势:Mean均数、 Median中位数;分位数:Quartiles四分位数等 ;离散趋势:Std Dev标准差、Variance方差、S.E.mean标准误、Range全距等 • 点Charts可以选作:Bar charts条图、Pie charts圆图、Histograms直方图 • Display frequency tables 作详细频数表
3.探索性分析 Analyze Descriptive Statistics Explore 把左边窗口中变量选到右边Dependent List窗口分组变量选到右边Factor List窗口, • 点Statistics选统计量; • 点Plots可以选作Boxplots箱式图、Stem-and-leaf茎叶图或Histograms直方图及正态性检验; • 点Options可以选择缺失值的处理方法。
4.分组描述 Analyze Compare MeansMeans 把左边窗口中变量选到右边Dependent List窗口分组变量选到右边Independent List窗口, 点 Next还可以分层再分组分析 • 点Options选更多的统计量, 增加了geometric mean几何均数、 harmonic mean 调和均数等
二、分类资料统计描述 1.一维频数表 Analyze Descriptive StatisticsFrequencies 把左边窗口中的变量选到右边Variable窗口, OK。 • 点开Statistics 不选任何统计量 • 点Charts可以选作Bar Charts条图或Pie Charts圆图
2. 二维及多维表分析 Analyze Descriptive Statistics Crosstabs 变量分别选入Row行、Column列以及Layer层。 • 点Statistics可选χ2值、Correlations(Pearson相关系数和Spearman等级相关系数)、Contingency coefficient列联系数、Kappa值、 Cochran‘s and Mantel-Haenszel χ2、RiskOR值、McNemanr检验 • 点Cell定义列联表单元格中是否输出理论数、行百分数、列百分数以及合计百分数等。 • 点 Exact 计算确切概率 • 点 Display clustered bar charts作重叠条图 • 点 Suppress table 禁止在结果中输出列联表
第三节 定量资料假设检验 一、样本均数与总体均数比较 样本的数据输在一列中 Analyze Compare Means One-Samples T Test 把左边窗口中变量选到右边Test Variable窗口,在Test Value窗口输入总体均数,OK。 • 点Options可以选择缺失值的处理方法
二、配对设计的差值均数与总体均数0比较 配对的数据分别输在两列中 Analyze Compare Means Paired-Samples T Test 把左边窗口中两个变量同时选到右边 Paired Variable窗口,OK。 • 点Options可以选择缺失值的处理方法
三、完全随机设计两样本均数比较 分析的变量和分组变量各输在一列中 Analyze Compare Means Independent- Samples T Test 把左边窗口中分析变量选到右边Test Variable窗口,分组变量选到右边Grouping Variable窗口,点Define Groups定义分组变量的两个取值,OK 进行 t 检验的同时会自动作方差齐性检验 。 • 点 Options 可以选择缺失值的处理方法
四、完全随机设计多个样本均数间比较 分析的变量和分组变量各输在一列中 Analyze Compare Means One-Way ANOVA 把左边窗口中分析变量(可选多个)选到右边Dependent List窗口,分组变量(只能1个)选到右边 Factor 窗口, • 点 Post Hoc选择均数间多重比较的方法 • 点 Options 可以选择作方差齐性检验等
五、两因素、三因素多个样本均数间比较 分析的变量和分组变量各输在一列中 Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口,分组变量选到Fixed Factors窗口,点开Model对话框选Custom (自定义变量),在Build Term下拉框中选Main effects(主效应),把左边窗口中两个分组变量选入右边Model窗口,OK • 点 Post Hoc选择均数间多重比较的方法 • 点 Options 可以选择作描述统计量等
六、析因实验设计方差分析 分析的变量和分组变量各输在一列中 Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口, 分组变量选到Fixed Factors窗口, OK • 可打开Model对话框选Custom (自定义变量),在Build Term下拉框中选Interaction(交互效应),选左边窗口中部分Factor变量到右边Model窗口。 • plots 可以作交互作用图。如:将A因素选入Horizontal Axis,B因素选入Separate lines,Add。
七、重复测量资料方差分析 分组变量各输一列,每个重复测量值各输一列 Analyze General Linear Model Repeated Measures 以两因素重复测量资料为例: 在Within Subject Factor Name窗口输入重复因素变量名,在Number of levels窗口输入重复水平数,Add Define 把左边窗口中表示重复测量值的几列变量选入右边Within-Subjects Variables窗口,分组变量选入Between-Subjects Factor窗口,OK
八、协方差分析 协变量、分析变量、分组变量各输成一列 ①先检验是否满足协方差分析的条件: 1.各组分析变量均来自方差齐的正态分布总体 • 正态性检验: Analyze Descriptive Statistics Explore • 方差齐性检验: Analyze Compare Means One-Way ANOVA 2. 各样本的协变量与分析变量间有直线关系 分组作线性回归分析 Analyze Regression Liner
②各回归系数间比较: Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口,分组变量选到Fixed Factors窗口,协变量选到Covariate窗口,点开 Model 对话框选 Custom,在Build Term下拉框中选 Interaction,把左边窗口中分组变量和协变量分别选入右边Model窗口,再同时选中分组变量和协变量,选入右边Model窗口,Sum of Squares框中选Type I,Continue, OK 若交互作用无统计学意义,可继续分析
③修正均数间比较: Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口,分组变量选到Fixed Factors窗口,协变量选到Covariate窗口,点开 Model 对话框选 Custom,在Build Term下拉框中选 Main effacts ,把左边窗口中分组变量和协变量分别选入右边Model窗口,Sum of Squares框中选Type Ⅲ,Continue, OK 点开Options对话框,分组变量选到Display means for框中,选中Compare mean effects ,Continue, OK
第四节 非参数检验 一、配对设计的符号秩和检验 用于配对两样本比较时数据分别输在两列中; 用于样本与总体中位数比较时样本输一列,总体均数要反复输成同样行数的一列。 Analyze Nonparametric test 2-Related-Samples Tests 把左边窗口中两个变量同时选到右边 TestPair(s) List 窗口,OK • 点Options 可以选择进行统计描述
二、完全随机设计两样本比较 分析的变量和分组变量各输在一列中, 频数表型的资料按行×列表格式输入。 Analyze Nonparametic test 2 Independent-Samples 把分析变量选入Test variable list框,分组变量选入grouping variables框,点Define groups定义分组变量的两个取值,continue,OK • 点Options 可以选择进行统计描述
三、完全随机设计多个样本比较 分析的变量和分组变量各输在一列中, 频数表型的资料按行×列表格式输入。 Analyze Nonparametic test K Independent-Samples 把分析变量选入Test variable list框,分组变量选入grouping variables框,点Define groups定义分组变量的取值范围,continue,OK • 点Options 可以选择进行统计描述
四、配伍组设计多个样本比较 数据输入时每个处理组作为1个变量输一列 Analyze Nonparametic test K-Related-Samples Tests 把左边窗口中几个变量(处理组)同时选到右边 Test Variables窗口中,OK • 点Statistics 可以选择进行统计描述
第五节 相关回归分析 一、相关分析 每个变量各输在一列中 Analyze Correlate Bivariate 把左边窗口中的变量(至少选2个变量)选到右边Variables窗口,OK Correlation Coefficients下复选框有三个: • Pearson计算积距相关系数 • Kendall‘s tau-b 计算Kendall’s等级相关系数 • Spearman计算秩相关系数 点Options可以选择计算更多统计量和对缺失值的处理方法
作散点图 Graghs Scatter/dot Simple Scatter Define 把自变量选入X Axis,因变量选入Y Axis,OK 作回归线+可信区间图 Graghs Interactive Scatterplot 选 Assign Variables 标签: 把自变量选入X Axis,因变量选入Y Axis。 选 Fit 标签:Method下拉框中选 Regression, 在 Prediction Lines中选中 Mean作 总体均数可信区间、选中individual作个体Y容许区间。 OK
二、回归分析 每个自变量和应变量各输一列 Analyze Regression Liner 应变量选入Dependent框中,自变量选入 Independent框中,OK • 点 Statistics 可以选择计算更多统计量 选中 Confidence Intervals计算回归系数可信区间 选中 Descriptives作统计描述 • 点 Save 可以在原数据表中增加内容 在Predicted Values下面选Unstandardized, 在Prediction Intervals下面选中Mean作 总体均数可信区间、选中individual作个体Y容许区间。
作多元回归分析时: • 用Method下拉框选择筛选变量的方法: Enter(强行进入法)、Stepwise(逐步法)、Backward(向后法)、Forward(向前法) 、 Remove(强制剔除法) • 点 Options 可以改变筛选变量的α水准 • 点Statistics 选中 Collinearity Diagnostics可以作自变量的共线性诊断 • 点 Plot 可以绘制回归分析诊断或预测图
三、曲线拟合 Analyze Regression Curve estimation 因变量选入Dependant框,自变量选入Independant框,在Models下面可以选择曲线类型: • Linear: 直线方程Y= b0+b1X • Quadratic: 二次方程Y = b0+b1X+b2X2; • Cubic: 三次方程Y = b0+b1X+b2X2+b3X3; • Compound: 复合曲线模型Y = b0×b1X; • Growth: 等比级数曲线模型LnY = b0+b1X; • Logarithmic:对数曲线模型Y = b0+b1lnX; • S: S形曲线模型LnY =b0+b1/X; • Exponential: 指数曲线模型Y = b0 eb1X; • Inverse: 倒数曲线模型Y = b0+b1/X; • Power: 乘幂曲线模型Y = b0X b1; • Logistic: Logistic曲线模型Y=1/(1/u+(b0*b1x))
四、Logistic回归 1.成组设计(非条件Logistic回归) 每个自变量和应变量各输一列 Analyze Regression Binary Logistic 因变量(二分类)选入Dependant框,自变量选入Covariates框,a*b 用于选入交互作用项。 • Categorical 指定多分类变量用哑变量方式 • Options 可以对模型作精确定义: • Classification plots选择模型预测情况的描述 • Correlations of estimates 模型诊断工具 • Iteration history可以看到迭代的具体情况
2. 1:M配对设计(条件Logistic回归) 增加一列虚拟时间变量:病例=1、对照=2 AnalyzeSurvival Cox regression 虚拟时间变量选入Time框,因变量选入 Status框,点Define Event定义病例的取值,自变量选 入Covariates框,配对编号选入strata框中。 • method框中可以选择逐步筛选变量的方法 • Categorical 项可为无序分类变量设置哑变量 • Options项可以选择输出OR的95%可信区间,以及定义选入、剔除变量的α水准等
第六节 生存分析 一、寿命表和生存曲线 生存时间、生存状态(截尾值)、分组变量各输一列 AnalyzeSurvival Life Tables 生存时间变量选入Time框,生存时间范围及组距输入Display Time Intervals,生存状态变量选入 Status框,点Define Event定义终结事件的取值(非截尾值),分组变量选入Factor框中,分层变量选入By Factor • Options 选择作各种生存曲线
二、生存率比较(Kaplan-Meier法) 生存时间、生存状态(截尾值)、分组变量各输一列 AnalyzeSurvival Kaplan-Meier 生存时间变量选入Time框,生存状态变量选入 Status框,点Define Event定义终结事件的取值(非截尾值),分组变量选入Factor框中,分层变量选入Strata • 点 Compare Factor 选择生存率比较的方法 可在 Test Statistics中 选 Log rank • 点Options选择计算统计量、作生存率曲线
3. COX 回归分析 每个自变量、生存时间、生存状态(截尾值)各输一列 AnalyzeSurvival Cox regression 生存时间变量选入Time框,生存状态变量选入 Status框,点Define Event定义终结事件的取值(非截尾值),自变量选 入Covariates框,method框中可以选择逐步筛选变量的方法。 Categorical 项可为无序分类变量设置哑变量, Plot 项可以选 作生存函数曲线等图, Options项可以选择输出OR的95%可信区间,以及定义选入、剔除变量的α水准等
分析结果导出 File Export 文件类型中选 Word/RTF File(*.doc) 可以导出成 Word 文档