700 likes | 1.08k Views
SAS 菜单系统 — 分析家模块 S tatistical A nalysis S ystem. — A nalyst A pplication. 公共卫生学院信息数据处理教学实验室. SAS 软件简介. 1966 年美国 North Carolina 大学的两位生物统计学教授开始研制 SAS 系统,直至 1976 年成立了 SAS 软件研究所,正式推出了 SAS 软件, 1985 年推出微机版 SAS 。
E N D
SAS菜单系统—分析家模块 Statistical Analysis System —Analyst Application 公共卫生学院信息数据处理教学实验室
SAS软件简介 1966年美国North Carolina大学的两位生物统计学教授开始研制SAS系统,直至1976年成立了SAS软件研究所,正式推出了SAS软件,1985年推出微机版SAS。 SAS是用于决策支持的大型集成信息系统,软件系统最早的功能限于统计分析,现在统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的最新版本为9.1版,大小约为2GB。
学习SAS软件时,需要用户有基本的统计学知识,对所选用的统计方法有较清楚的了解,没有统计学基础知识要掌握SAS软件较为困难。学习SAS软件时,需要用户有基本的统计学知识,对所选用的统计方法有较清楚的了解,没有统计学基础知识要掌握SAS软件较为困难。 由于SAS是从大型机上的系统发展而来,在设计上也是完全针对专业用户进行设计,因此操作以SAS语言编程为主,同时也有非编程方式的菜单系统。
第一节 SAS软件的使用基础 一、SAS的启动和退出 • 启动SAS • 双击桌面SAS图标 • 开始菜单 程序 SAS SAS9.1(中文) • 直接双击SAS应用程序 • 退出SAS • 标题栏关闭按钮 • 菜单栏 文件 退出 • 在命令框键入“Bye”或“Endsas”
二、SAS的工作窗口 标题栏、菜单栏、命令框、工具栏 • 编辑器 程序编辑窗口 • 日志 运行过程记录窗口 • 输出 结果输出窗口 • 结果/资源管理器
三、SAS中的几个菜单模块 • 分析家模块 菜单栏 解决方案 分析 分析家 • 交互式数据分析模块菜单栏 解决方案 分析 交互式数据分析 • 向导式数据分析模块菜单栏 解决方案 分析 向导式数据分析 • ASSIST模块 菜单栏 解决方案 ASSIST
第二节 SAS数据集 SAS数据集(SAS Dataset) 数据值被安排在一个矩阵式的表格结构中 每一行数据表示一个观测(Observation) 每一列数据表示一个变量(Variable) • 变量命名:1~8个字符,第1个字符必须是字母,后面可以是字母、数字和下划线 • 变量类型:数值型、字符型和日期时间型 字符型变量名后加“$”表示, 日期型: '16OCT98'D,时间型: '9:25:30'T • 变量缺失值:用“.”表示
一、SAS数据集的种类 • 临时SAS数据集 不保存,一旦退出SAS就消失。 • 永久SAS数据集 保存在用户指定的文件夹里。 需要指定用户文件夹的位置(创建库标记)。
二、创建SAS永久数据集 1. 创建新的库标记 点工具栏 按钮,打开 新建逻辑库 对话框 在 名称 框中键入库标记名 在 路径 框中指定相对应的文件夹,OK 可以按 浏览 查找文件夹位置 可以在右上角 启动时启用 前打钩,即启动SAS就自动建立这个库标记。
2. 建立新的SAS数据集 菜单栏 解决方案 分析 分析家 • 打开分析家窗口直接输入数据 • 保存数据:文件 保存(工具栏 ) 在 逻辑库 框中选择已建立的库标记 • 选Work 可以建临时数据集 • 也可在此建立新的库标记 在下面的成员名框中键入数据集文件名,保存
三、由其它类型数据文件转换成SAS数据集 菜单栏 文件 导入数据SAS可以直接与下列格式文件互相转换 • Microsoft Excel 97/2000/2002 File (*.xls) • Microsoft Access 97/2000/2002 Database • dBASE/FoxBASE File (*.dbf) • Lotus 1/3/4 File (*.wk1/3/4) • Delimited File (*.*) 空格分隔 • Tab Delimited File (*.txt) 制表符分隔 • Comma Separated Velues(*.csv)逗号分隔
第三节 描述性统计 1. 打开已有的SAS数据集: • 常用工具栏 打开按钮 • 菜单栏 文件 打开(按SAS名称打开) 2. 现场输入数据: 在类似 Excel的工作表中的某一列第一行开始输入数据,每一个变量输在一列中,如果有20个人(观测)每人有4个变量:性别、年龄、身高和体重,建成的数据集应该有4列20行。(单击列标题可以改变量名)
一、数值变量的描述性统计 (1)作简单统计描述(每个变量输在1列中) 菜单栏 统计 描述性统计 汇总统计量 把要分析的变量选入Analysis窗口 有分组变量可以选入Class窗口 选Statistics可以选更多的统计分析结果 选Plots可以作箱式图或直方图 选Variables可以对变量有更多的选择方式, 如频数变量的选入 OK 完成
(2)作详细统计描述 菜单栏 统计 描述性统计 分布 把要分析的变量选入Analysis窗口 有分组变量可选入Class窗口 选Plots可以作箱式图、直方图或概率图 选Fit可以在直方图中加上指定的曲线 选Variables可以对变量有更多的选择方式,如频数变量的选入 OK 完成
详细描述结果(1) 矩 N 24 权重总和 24 均值 1.2846 观测总和 30.83 标准偏差 0.4687 方差 0.2196 偏度 0.1060 峰度 -0.9930 未校平方和ΣX2 44.6555 校正平方和 5.0518 变异系数 36.4835 标准误差均值 0.0957 基本统计测度 位置 变异性 均值 1.284583 标准偏差 0.46866 中位数 1.270000 方差 0.21964 众数 1.200000 极差 1.57000 四分位极差 0.79000
详细描述结果(2) 位置检验: Mu0=0 检验 --统计量--- -------P 值------- t 检验 学生 t t 13.4279 Pr > |t| <.0001 符号检验 符号 M 12 Pr >= |M| <.0001 符号秩和检验 符号秩 S 150 Pr >= |S| <.0001 分位数(定义 5) 分位数 估计值 100% 最大值 2.110 99% 2.110 95% 2.070 90% 1.870 75% Q3 1.615 50% 中位数 1.270 分位数 估计值 25% Q1 0.825 10% 0.640 5% 0.640 1% 0.540 0% 最小值 0.540
极值观测 ----最小值---- ----最大值---- 值 观测 值 观测 0.54 12 1.80 8 0.64 14 1.87 9 0.64 13 1.87 24 0.75 15 2.07 10 0.76 16 2.11 11
二、分类变量的描述性统计 • 作一维频数表 菜单栏 统计 描述 频数统计 把变量选入Frequencies 窗口,OK • 作二维频数表 菜单栏 统计 表分析 分别把变量选入Row、Column、Strata窗口,OK 用Tables可以选择在每个格中出现更多结果
一维频数表结果 变量名 G 频数 百分比 累计频数 累计百分比 2 78 30.2 78 30.2 3 85 32.9 163 63.2 4 95 36.8 258 100.0
二维频数表结果 B (行变量名) 频数| 百分比 | C(列变量名) 行百分比| 列百分比| 1 | 2 | 3 | 4 | 合计 ---------+--------+---------+---------+--------+ 1 | 0 | 6 | 37 | 26 | 69 | 0.00 | 6.32 | 38.95 | 27.37 | 72.63 | 0.00 | 8.70 | 53.62 | 37.68 | | . | 75.00 | 67.27 | 81.25 | ---------+--------+---------+---------+--------+ 2 | 0 | 2 | 18 | 6 | 26 | 0.00 | 2.11 | 18.95 | 6.32 | 27.37 | 0.00 | 7.69 | 69.23 | 23.08 | | . | 25.00 | 32.73 | 18.75 | ---------+--------+---------+---------+--------+ 合计 0 8 55 32 95 0.00 8.42 57.89 33.68 100.00
第四节 数值变量资料假设检验 一、未知总体与己知总体均数比较 把一组样本的数据输在一列中 菜单栏 统计 假设检验 均值的单样本 t 检验 在Variable窗口选入变量,Mean 窗口输入μ, OK 选Plots可以作箱式图、条图或 t 分布曲线图 • μ和σ己知时可选均值的单样本 u 检验, 在 Mean 窗口输入μ, Std Dev窗口输入σ。
单样本 t 检验结果 One Sample t-test for a Mean Sample Statistics for x (样本统计量) N Mean Std. Dev. Std. Error 15 3236.67 586.60 151.46 Hypothesis Test (假设检验) Null hypothesis: H0 Mean of x = 3000 Alternative: H1 Mean of x ^= 3000 t Statistic Df Prob > t t值 自由度 P值 1.563 14 0.1405
二、配对设计资料比较的 t检验 配对的数据分别输在两列中 菜单栏 统计 假设检验 均值的双样本成对 t 检验 分别选入第一列和第二列变量 ,OK 选Plots可以作箱式图、均值条图或 t 分布曲线图
配对t检验结果 Two Sample Paired t-test for the Means of X1 and X2 Sample Statistics (样本统计量) Group N Mean Std. Dev. Std. Error X1 10 70.7 14.568 4.6069 X2 10 69.8 14.793 4.6781 Hypothesis Test (假设检验) Null hypothesis: H0 Mean of (X1 - X2) = 0 Alternative: H1 Mean of (X1 - X2) ^= 0 t Statistic Df Prob > t t值 自由度 P值 1.247 9 0.2440
三、完全随机设计两总体均数比较 t检验 分析的变量和分组变量各输在一列中 菜单栏 统计 假设检验 均值的双样本 t 检验 在Dependent窗口选入要分析的变量 在Group窗口选入分组变量,OK 选Plots可以作箱式图、均值条图或 t 分布曲线图
两样本均数比较 t 检验结果 Two Sample t-test for the Means of X within G Sample Statistics 样本统计量 Group N Mean Std. Dev. Std. Error 0 11 1.5209 0.4218 0.1272 1 13 1.0846 0.4221 0.1171 Hypothesis Test 假设检验 Null hypothesis: H0 Mean 1 - Mean 2 = 0 Alternative: H1 Mean 1 - Mean 2 ^= 0 If Variances Are t statistic Df Pr > t Equal 方差齐2.524 22 0.0193 Not Equal方差不齐 2.524 21.35 0.0196
四、两组完全随机设计资料方差齐性检验 分析的变量和分组变量各输在一列中 菜单栏 统计 假设检验 方差的双样本检验 在Dependent窗口选入要分析的变量 在Group窗口选入分组变量,OK
两样本方差齐性检验结果 Two Sample Test for Variances of X within G Sample Statistics (样本统计量) Group N Mean Std. Dev. Std. Error 0 11 1.5209 0.4218 0.1272 1 13 1.0846 0.4221 0.1171 Hypothesis Test (假设检验) Null hypothesis: H0 Variance 1 / Variance 2 = 1 Alternative: H1 Variance 1 / Variance 2 ^= 1 - Degrees of Freedom自由度- F Numer. Denom. Pr > F F值 分子 分母 P值 1.00 10 12 0.9874
第五节 方差分析 一、单因素方差分析 分析的变量和分组变量各输在一列中 菜单栏 统计 方差分析 单向方差分析 在 Dependent 窗口选入分析变量 在 Independent 窗口选入分组变量 • 需要作均数间两两比较时选 Means, 在 Comparison Mathod 窗口中选两两比较的方法,在 Main Effacts 窗口选中分组变量,Add OK • 需要作方差齐性检验时选Tests,在Tests for Equal variance 中选择一种方法,OK
方差分析结果Analysis of Variance Procedure Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr > F 变异来源 自由度 SS MS F P Model模型2 2384.02550505 1192.01275253 5.85 0.0077 Error误差27 5497.83616162 203.62356154 Total总29 7881.86166667 R-Square R2 C.V. Root MSE Sy.x X Mean 0.302470 12.93519 14.26967279 110.31666667 Source DF Anova SS Mean Square F Value Pr > F 变异来源 自由度 SS MS F P G组间2 2384.02550505 1192.01275253 5.85 0.0077
Student-Newman-Keuls test for variable: X 均数间两两比较q检验(SNK法) Means with the same letter are not significantly different. 相同字母表示的均数无显著性差别 SNK Grouping Mean N G A 122.800 10 3 B 105.455 11 1 B B 102.389 9 2 表示第三组均数大于前两组,而前两组均数之间的差异无统计学意义。
二、两因素、三因素方差分析 分析变量输在一列中,两因素时分组变量 输两列,三因素时分组变量输三列。 菜单栏 统计 方差分析 因子方差分析 在Dependent窗口选入分析变量 在Independent 窗口选入各分组变量 (交叉设计可按三因素方差分析方法作) 需要作均数间两两比较时选 Means Comparison Means Breakdown 可以分组作统计描述
三、析因设计资料的方差分析 数据输入方法同两因素、三因素 菜单栏 统计 方差分析 因子方差分析 在Dependent窗口选入分析变量 在Independent 窗口选入各分组变量 • 交互作用分析选Model, 在 Standard Models 窗口中选2-way interaction 或 3-way interaction 把分组变量和交互项选入Effects in model
四、正交试验设计资料的方差分析 输入正交试验表中各主效应列水平和实验结果 如:应用L8(27)表的正交试验结果 SAS中输入数据
四、正交试验设计资料的方差分析 菜单栏 统计 方差分析 因子方差分析 在Dependent窗口选入分析变量 在Independent 窗口选入各分组变量 • 交互作用分析选Model, 在 Independent 窗口逐一选 中交互作用项,点Cross,把主效应和交互效应项选 入Effects in model,OK 有重复测量的数据输入时,正交表中各主效应列也要重复输,如重复实验3次,同一实验号正交表输3行,各行分别对应一次实验结果。
五、裂区设计资料的方差分析 数据输入方法同两因素、三因素 菜单栏 统计 方差分析 因子方差分析 在Dependent窗口选入分析变量,在Independent 窗口选入分组变量A(大区)、 B(小区)、 C(区组) • 选Model Standard Models Effects up to2-way interaction Effects in model窗口中 B*C Remove OK • 选Test 在Effects窗口中 A*BError 在Effects窗口中 A、B Add OK OK
六、重复测量资料的方差分析 数据输入方法同两因素、三因素 菜单栏 统计 方差分析 重复测量 在Dependent窗口选入分析变量X,在Independent 窗口选入分组变量A(处理)、B(个体)、C(时间) 选 Model功能 • 选Subjects,选independent中变量B Add,变量A nest • 选Model Standard Models Effects up to2-way interaction 选中Effects in model窗口中B、A*C、B*C Remove(只留A、C、A*C) • 选Repeated ,选 independent 中变量CAdd 需要作两两比较时选Means LS Means,需要比较的变量选入LS Means框中,选中Computer pairwise differences OK OK
七、协方差分析(1) 数据输入时协变量X、分析变量Y、分组变量G各输成一列,先检验是否满足协方差分析的条件 1.各样本变量Y均来自方差齐的正态分布总体 ①正态性检验 菜单栏 统计 描述性统计 分布 在Analysis窗口选入要分析的变量Y,在Classification窗口选入分组变量,打开 Fit 窗口选 Normal,OK OK ②方差齐性检验 菜单栏 统计 方差分析 单向方差分析 在 Dependent 窗口选入分析变量Y,在 Independent 窗口选入分组变量,打开Tests窗口,选Bartlett’s test OK
七、协方差分析(2) 2. 各样本的协变量与分析变量间有直线关系, 即各回归系数均有统计学意义 菜单栏 统计 回归 简单 把分析变量Y选入Dependent框,协变量选入Explanatory框,打开Variables窗口,把分组变量选入By Group框,OK 打开Plots窗口Predicted Plot Observed VS Independent OK ,可以分组作散点图。
七、协方差分析(3) 3.作各回归系数间比较: 菜单栏 统计 方差分析 线性模型 在Dependent窗口选入分析变量Y,在Class 窗口选入分组变量G,在Quantitative窗口选入协变量X 选 Model功能,将 Independent 中协变量X和分组变量G选中,Cross,OK OK 4.作修正均数间比较: 选Model功能,将Effects in model中X*G选中,Remove , OK OK 5.修正均数间两两比较: 选Means LS Means,将分组变量G选入LS Means框中,选中Computer pairwise differences, OK
协方差分析结果1:各回归系数间比较 Source DF Sum of Squares Mean Square F Value Pr > F Model 5 104.3919881 20.8783976 28.98 <.0001 Error 24 17.2908786 0.7204533 Total 29 121.6828667 Source DF Type I SS Mean Square F Value Pr > F X 1 11.21842140 11.21842140 15.57 0.0006 A 2 93.04995906 46.52497953 64.58 <.0001 X*A 2 0.12360759 0.06180380 0.09 0.9181 即: 变异来源 DF SS MS F P 回归系数间 2 0.12360759 0.06180380 0.09 0.9181 组内 24 17.2908786 0.7204533
协方差分析结果2:修正均数间比较 Source DF Sum of Squares Mean Square F Value Pr > F Model 3 104.2683805 34.7561268 51.89 <.0001 Error 26 17.4144862 0.6697879 Total 29 121.6828667 Source DF Type III SS Mean Square F Value Pr > F X 1 19.62837379 19.62837379 29.31 <.0001 A 2 93.04995906 46.52497953 69.46 <.0001 即: 变异来源 DF SS MS F P 修正均数间 2 93.04995906 46.52497953 69.46 <.0001 公共 26 17.4144862 0.6697879
第六节 定性资料假设检验 一、样本率与总体率比较 把样本的数据(必须是两分类)输在一列中 菜单栏 统计 假设检验 比例的单样本检验 在Variable窗口选入变量 在Level of interest 窗口下箭头选择代表 阳性水平的数值, 在Prop 窗口输入π, OK
二、两样本率比较— u检验 分析变量(必须是两分类)和分组变量各输在一列中 菜单栏 统计 假设检验 比例的双样本检验 • 在Dependent窗口选入分析变量, • 在Level of interest 窗口下箭头选择代表 阳性水平的数值, • 在Group 窗口选入分组变量。
三、样本率之间比较—χ2检验 分别输入行变量、列变量和频数共三列 菜单栏 统计 表分析 把行变量选入Row,列变量选入Column, 频数选入Cell counts,打开Statistics窗口选择 统计量: Chi-square Statistics 计算χ2统计量 Measures of association 计算关联性统计量 Mantel-Haenszel Statistics 队列研究和病例对照研究 Measures of Agreement 配对一致性检验 Exact test for (r×c) tables计算行×列表的确切概率
A * B表的统计量 统计量 自由度 值 概率 卡方(χ2) 1 6.133 0.013 似然比卡方 1 6.304 0.012 连续校正卡方 1 5.118 0.024 Mantel-Haenszel卡方1 6.084 0.014 Phi系数 0.221 列联系数 0.215 Cramer 的 V 0.221 Fisher精确概率 单元格(1,1)频数(F) 15 左侧 Pr<=F 0.997 右侧 Pr>=F 0.011 表概率(P) 0.009 双侧 Pr<=P 0.018
配对四格表(Measures of Agreement)检验结果: McNemar检验 统计量(S) 10.756 DF 1 P > S 0.0001 简单 Kappa 系数 Kappa 0.174 渐近标准误差 0.086 95%置信下限 0.006 95%置信上限 0.346 样本大小= 132