1 / 43

SPSS 软件应用 S tatistical P roduct and S ervice S olutions

SPSS 软件应用 S tatistical P roduct and S ervice S olutions. 公共卫生学院信息数据处理教学实验室. SPSS 软件简介. SPSS 是世界上最早的统计分析软件。美国斯坦福大学的三位研究生于 20 世纪 60 年代末开始研制,于 1975 年在芝加哥组建了 SPSS 总部。 1984 年 SPSS 总部首先推出了世界上第一个统计分析软件微机版本 SPSS/PC+ , SPSS 现在的最新版本为 13 ,大小约为 300M 。.

ricky
Download Presentation

SPSS 软件应用 S tatistical P roduct and S ervice S olutions

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. SPSS 软件应用Statistical Product and Service Solutions 公共卫生学院信息数据处理教学实验室

  2. SPSS软件简介 SPSS是世界上最早的统计分析软件。美国斯坦福大学的三位研究生于20世纪60年代末开始研制,于1975年在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,SPSS现在的最新版本为13,大小约为300M。

  3. SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮。使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮。使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。

  4. SPSS的界面类似 Excel 电子表格 • 以窗口方式管理数据; • 以菜单方式展示各种分析方法; • 以对话框展示出各种功能选择项; • 能方便的从其他数据库中读入数据; • 结果可以直接导出为WORD文档。 SPSS是非专业统计人员的首选统计软件。

  5. 第一节 数据管理 • 数据库的概念 数据值被安排在一个矩阵式的表格结构中 每一列表示一个变量(Variable) 每一行表示一个观测(Case)

  6. 一、新建数据文件 • 定义变量 单击数据表的左下角第二个标签 Variable View (或双击列标签VAR) 进入定义变量的界面: Name Type Width Decimals 变量名 类型 宽度 小数位数 • 输入数据 单击数据表的左下角第一个标签 Data View ,可以开始输入数据。 • 保存数据文件(*.sav) File Save打开保存文件对话框

  7. 二、打开数据文件 File Open Data或工具栏 文件类型有十余种: SPSS(*.sav) SPSS数据文件(6.0版~) SPSS/PC+(*.sys) SPSS 4.0版数据文件 SPSS portable(*.por) SPSS便携格式的数据文件 EXCEL(*.xls) EXCEL数据文件 Lotus(*.w*) Lotus数据文件 dBase(*.dbf) dBase系列数据文件 SAS Long File Name(*.sas7bdat) SAS8.0以上长文件名数据 SAS v6 for Windows(*.sd2) SAS6.12版数据文件 Text(*.txt) 纯文本格式的数据文件 Data(*.dat) 纯文本格式的数据文件 ……

  8. 三、编辑数据文件 • 数据集的行列转置 Data Transpose • 纵向合并数据集(增加观测) Data Merge Files Add Cases • 横向合并数据集(增加变量) Data Merge Files Add Variable

  9. 数据集分组分析 Data Split File • 选择部分观测 Data Select Cases • 指定变量为频数 Data Weight Cases • 按指定变量排序 Data Sort Case

  10. 四、从原有变量产生新的变量(一) Transform Compute 在 target variable框中键入新的变量名, 在 numeric expression框中写出计算公式 如:产生新的变量 LX 为原变量 X 的对数值 在 target variable框中键入新的变量名LX, 在右下的function框中找到“LG10()” 函数,向上选入,再到左边变量列表中找到原变量X,向右选入,在 numeric expression框中出现“LG10(X)”,OK

  11. 四、从原有变量产生新的变量(二) ① Transform Recode Into Different Variables ② 原变量选入 Input variables->outputvariable框,在output variable name框中键入新的变量,change ③ (如果必要的话)打开if 菜单:选 include if case satisfies condition ,在框中选入筛选的条件,continue ④打开 old and new values菜单:在左边一列中设定原变量的取值条件,在右边new value框中键入新变量的取值,add,continue 重复④可以设定新变量的其它取值, 重复③④可以设定其它条件下新变量的取值

  12. 第二节 统计描述 一、定量资料统计描述 1.简单统计描述 Analyze Descriptive StatisticsDescriptives 把左边窗口中变量选到右边Variable窗口, OK,可以计算Mean均数、Std. Deviations标准差、Minimum最小值、Maximum最大值。 • 点右下角Options键可以计算更多统计量:Variance方差、Range全距、S.E.mean标准误、Kurtosis峰度系数、 Skewness偏度系数等。

  13. 频数表资料计算 • 定义两个变量:组中值和频数 分别输入两列数据 • 菜单栏 Data Weight Cases 打开 Weight Cases对话框 选中 Weight Casesby 把频数选入右边 Frequence tables框中 然后再对变量组中值作统计描述

  14. 2.详细统计描述(包括详细频数表) Analyze Descriptive StatisticsFrequencies 把左边窗口中的变量选到右边Variable窗口, OK。 • 点Statistics选统计量:集中趋势:Mean均数、 Median中位数;分位数:Quartiles四分位数等 ;离散趋势:Std Dev标准差、Variance方差、S.E.mean标准误、Range全距等 • 点Charts可以选作:Bar charts条图、Pie charts圆图、Histograms直方图 • Display frequency tables 作详细频数表

  15. 3.探索性分析 Analyze Descriptive Statistics Explore 把左边窗口中变量选到右边Dependent List窗口分组变量选到右边Factor List窗口, • 点Statistics选统计量; • 点Plots可以选作Boxplots箱式图、Stem-and-leaf茎叶图或Histograms直方图及正态性检验; • 点Options可以选择缺失值的处理方法。

  16. 4.分组描述 Analyze Compare MeansMeans 把左边窗口中变量选到右边Dependent List窗口分组变量选到右边Independent List窗口, 点 Next还可以分层再分组分析 • 点Options选更多的统计量, 增加了geometric mean几何均数、 harmonic mean 调和均数等

  17. 二、分类资料统计描述 1.一维频数表 Analyze Descriptive StatisticsFrequencies 把左边窗口中的变量选到右边Variable窗口, OK。 • 点开Statistics 不选任何统计量 • 点Charts可以选作Bar Charts条图或Pie Charts圆图

  18. 2. 二维及多维表分析 Analyze Descriptive Statistics Crosstabs 变量分别选入Row行、Column列以及Layer层。 • 点Statistics可选χ2值、Correlations(Pearson相关系数和Spearman等级相关系数)、Contingency coefficient列联系数、Kappa值、 Cochran‘s and Mantel-Haenszel χ2、RiskOR值、McNemanr检验 • 点Cell定义列联表单元格中是否输出理论数、行百分数、列百分数以及合计百分数等。 • 点 Exact 计算确切概率 • 点 Display clustered bar charts作重叠条图 • 点 Suppress table 禁止在结果中输出列联表

  19. 第三节 定量资料假设检验 一、样本均数与总体均数比较 样本的数据输在一列中 Analyze Compare Means One-Samples T Test 把左边窗口中变量选到右边Test Variable窗口,在Test Value窗口输入总体均数,OK。 • 点Options可以选择缺失值的处理方法

  20. 二、配对设计的差值均数与总体均数0比较 配对的数据分别输在两列中 Analyze Compare Means Paired-Samples T Test 把左边窗口中两个变量同时选到右边 Paired Variable窗口,OK。 • 点Options可以选择缺失值的处理方法

  21. 三、完全随机设计两样本均数比较 分析的变量和分组变量各输在一列中 Analyze Compare Means Independent- Samples T Test 把左边窗口中分析变量选到右边Test Variable窗口,分组变量选到右边Grouping Variable窗口,点Define Groups定义分组变量的两个取值,OK 进行 t 检验的同时会自动作方差齐性检验 。 • 点 Options 可以选择缺失值的处理方法

  22. 四、完全随机设计多个样本均数间比较 分析的变量和分组变量各输在一列中 Analyze Compare Means One-Way ANOVA 把左边窗口中分析变量(可选多个)选到右边Dependent List窗口,分组变量(只能1个)选到右边 Factor 窗口, • 点 Post Hoc选择均数间多重比较的方法 • 点 Options 可以选择作方差齐性检验等

  23. 五、两因素、三因素多个样本均数间比较 分析的变量和分组变量各输在一列中 Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口,分组变量选到Fixed Factors窗口,点开Model对话框选Custom (自定义变量),在Build Term下拉框中选Main effects(主效应),把左边窗口中两个分组变量选入右边Model窗口,OK • 点 Post Hoc选择均数间多重比较的方法 • 点 Options 可以选择作描述统计量等

  24. 六、析因实验设计方差分析 分析的变量和分组变量各输在一列中 Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口, 分组变量选到Fixed Factors窗口, OK • 可打开Model对话框选Custom (自定义变量),在Build Term下拉框中选Interaction(交互效应),选左边窗口中部分Factor变量到右边Model窗口。 • plots 可以作交互作用图。如:将A因素选入Horizontal Axis,B因素选入Separate lines,Add。

  25. 七、重复测量资料方差分析 分组变量各输一列,每个重复测量值各输一列 Analyze General Linear Model Repeated Measures 以两因素重复测量资料为例: 在Within Subject Factor Name窗口输入重复因素变量名,在Number of levels窗口输入重复水平数,Add Define 把左边窗口中表示重复测量值的几列变量选入右边Within-Subjects Variables窗口,分组变量选入Between-Subjects Factor窗口,OK

  26. 八、协方差分析 协变量、分析变量、分组变量各输成一列 ①先检验是否满足协方差分析的条件: 1.各组分析变量均来自方差齐的正态分布总体 • 正态性检验: Analyze Descriptive Statistics Explore • 方差齐性检验: Analyze Compare Means One-Way ANOVA 2. 各样本的协变量与分析变量间有直线关系 分组作线性回归分析 Analyze Regression Liner

  27. ②各回归系数间比较: Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口,分组变量选到Fixed Factors窗口,协变量选到Covariate窗口,点开 Model 对话框选 Custom,在Build Term下拉框中选 Interaction,把左边窗口中分组变量和协变量分别选入右边Model窗口,再同时选中分组变量和协变量,选入右边Model窗口,Sum of Squares框中选Type I,Continue, OK 若交互作用无统计学意义,可继续分析

  28. ③修正均数间比较: Analyze General Linear Model Univariate 把分析变量选到右边Dependent List窗口,分组变量选到Fixed Factors窗口,协变量选到Covariate窗口,点开 Model 对话框选 Custom,在Build Term下拉框中选 Main effacts ,把左边窗口中分组变量和协变量分别选入右边Model窗口,Sum of Squares框中选Type Ⅲ,Continue, OK 点开Options对话框,分组变量选到Display means for框中,选中Compare mean effects ,Continue, OK

  29. 第四节 非参数检验 一、配对设计的符号秩和检验 用于配对两样本比较时数据分别输在两列中; 用于样本与总体中位数比较时样本输一列,总体均数要反复输成同样行数的一列。 Analyze Nonparametric test 2-Related-Samples Tests 把左边窗口中两个变量同时选到右边 TestPair(s) List 窗口,OK • 点Options 可以选择进行统计描述

  30. 二、完全随机设计两样本比较 分析的变量和分组变量各输在一列中, 频数表型的资料按行×列表格式输入。 Analyze Nonparametic test 2 Independent-Samples 把分析变量选入Test variable list框,分组变量选入grouping variables框,点Define groups定义分组变量的两个取值,continue,OK • 点Options 可以选择进行统计描述

  31. 三、完全随机设计多个样本比较 分析的变量和分组变量各输在一列中, 频数表型的资料按行×列表格式输入。 Analyze Nonparametic test K Independent-Samples 把分析变量选入Test variable list框,分组变量选入grouping variables框,点Define groups定义分组变量的取值范围,continue,OK • 点Options 可以选择进行统计描述

  32. 四、配伍组设计多个样本比较 数据输入时每个处理组作为1个变量输一列 Analyze Nonparametic test K-Related-Samples Tests 把左边窗口中几个变量(处理组)同时选到右边 Test Variables窗口中,OK • 点Statistics 可以选择进行统计描述

  33. 第五节 相关回归分析 一、相关分析 每个变量各输在一列中 Analyze Correlate Bivariate 把左边窗口中的变量(至少选2个变量)选到右边Variables窗口,OK Correlation Coefficients下复选框有三个: • Pearson计算积距相关系数 • Kendall‘s tau-b 计算Kendall’s等级相关系数 • Spearman计算秩相关系数 点Options可以选择计算更多统计量和对缺失值的处理方法

  34. 作散点图 Graghs Scatter/dot Simple Scatter Define 把自变量选入X Axis,因变量选入Y Axis,OK 作回归线+可信区间图 Graghs Interactive Scatterplot 选 Assign Variables 标签: 把自变量选入X Axis,因变量选入Y Axis。 选 Fit 标签:Method下拉框中选 Regression, 在 Prediction Lines中选中 Mean作 总体均数可信区间、选中individual作个体Y容许区间。 OK

  35. 二、回归分析 每个自变量和应变量各输一列 Analyze Regression Liner 应变量选入Dependent框中,自变量选入 Independent框中,OK • 点 Statistics 可以选择计算更多统计量 选中 Confidence Intervals计算回归系数可信区间 选中 Descriptives作统计描述 • 点 Save 可以在原数据表中增加内容 在Predicted Values下面选Unstandardized, 在Prediction Intervals下面选中Mean作 总体均数可信区间、选中individual作个体Y容许区间。

  36. 作多元回归分析时: • 用Method下拉框选择筛选变量的方法: Enter(强行进入法)、Stepwise(逐步法)、Backward(向后法)、Forward(向前法) 、 Remove(强制剔除法) • 点 Options 可以改变筛选变量的α水准 • 点Statistics 选中 Collinearity Diagnostics可以作自变量的共线性诊断 • 点 Plot 可以绘制回归分析诊断或预测图

  37. 三、曲线拟合 Analyze Regression Curve estimation 因变量选入Dependant框,自变量选入Independant框,在Models下面可以选择曲线类型: • Linear: 直线方程Y= b0+b1X • Quadratic: 二次方程Y = b0+b1X+b2X2; • Cubic: 三次方程Y = b0+b1X+b2X2+b3X3; • Compound: 复合曲线模型Y = b0×b1X; • Growth: 等比级数曲线模型LnY = b0+b1X; • Logarithmic:对数曲线模型Y = b0+b1lnX; • S: S形曲线模型LnY =b0+b1/X; • Exponential: 指数曲线模型Y = b0 eb1X; • Inverse: 倒数曲线模型Y = b0+b1/X; • Power: 乘幂曲线模型Y = b0X b1; • Logistic: Logistic曲线模型Y=1/(1/u+(b0*b1x))

  38. 四、Logistic回归 1.成组设计(非条件Logistic回归) 每个自变量和应变量各输一列 Analyze Regression Binary Logistic 因变量(二分类)选入Dependant框,自变量选入Covariates框,a*b 用于选入交互作用项。 • Categorical 指定多分类变量用哑变量方式 • Options 可以对模型作精确定义: • Classification plots选择模型预测情况的描述 • Correlations of estimates 模型诊断工具 • Iteration history可以看到迭代的具体情况

  39. 2. 1:M配对设计(条件Logistic回归) 增加一列虚拟时间变量:病例=1、对照=2 AnalyzeSurvival Cox regression 虚拟时间变量选入Time框,因变量选入 Status框,点Define Event定义病例的取值,自变量选 入Covariates框,配对编号选入strata框中。 • method框中可以选择逐步筛选变量的方法 • Categorical 项可为无序分类变量设置哑变量 • Options项可以选择输出OR的95%可信区间,以及定义选入、剔除变量的α水准等

  40. 第六节 生存分析 一、寿命表和生存曲线 生存时间、生存状态(截尾值)、分组变量各输一列 AnalyzeSurvival Life Tables 生存时间变量选入Time框,生存时间范围及组距输入Display Time Intervals,生存状态变量选入 Status框,点Define Event定义终结事件的取值(非截尾值),分组变量选入Factor框中,分层变量选入By Factor • Options 选择作各种生存曲线

  41. 二、生存率比较(Kaplan-Meier法) 生存时间、生存状态(截尾值)、分组变量各输一列 AnalyzeSurvival Kaplan-Meier 生存时间变量选入Time框,生存状态变量选入 Status框,点Define Event定义终结事件的取值(非截尾值),分组变量选入Factor框中,分层变量选入Strata • 点 Compare Factor 选择生存率比较的方法 可在 Test Statistics中 选 Log rank • 点Options选择计算统计量、作生存率曲线

  42. 3. COX 回归分析 每个自变量、生存时间、生存状态(截尾值)各输一列 AnalyzeSurvival Cox regression 生存时间变量选入Time框,生存状态变量选入 Status框,点Define Event定义终结事件的取值(非截尾值),自变量选 入Covariates框,method框中可以选择逐步筛选变量的方法。 Categorical 项可为无序分类变量设置哑变量, Plot 项可以选 作生存函数曲线等图, Options项可以选择输出OR的95%可信区间,以及定义选入、剔除变量的α水准等

  43. 分析结果导出 File Export 文件类型中选 Word/RTF File(*.doc) 可以导出成 Word 文档

More Related