SAS 菜单系统 — 分析家模块 S tatistical A nalysis S ystem

SAS菜单系统—分析家模块 Statistical Analysis System —Analyst Application 公共卫生学院信息数据处理教学实验室

SAS软件简介 1966年美国North Carolina大学的两位生物统计学教授开始研制SAS系统，直至1976年成立了SAS软件研究所，正式推出了SAS软件，1985年推出微机版SAS。 SAS是用于决策支持的大型集成信息系统，软件系统最早的功能限于统计分析，现在统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的最新版本为9.1版，大小约为2GB。

学习SAS软件时，需要用户有基本的统计学知识，对所选用的统计方法有较清楚的了解，没有统计学基础知识要掌握SAS软件较为困难。学习SAS软件时，需要用户有基本的统计学知识，对所选用的统计方法有较清楚的了解，没有统计学基础知识要掌握SAS软件较为困难。由于SAS是从大型机上的系统发展而来，在设计上也是完全针对专业用户进行设计，因此操作以SAS语言编程为主，同时也有非编程方式的菜单系统。

第一节 SAS软件的使用基础 一、SAS的启动和退出 • 启动SAS • 双击桌面SAS图标 • 开始菜单　程序　 SAS SAS9.1(中文) • 直接双击SAS应用程序 • 退出SAS • 标题栏关闭按钮 • 菜单栏文件退出 • 在命令框键入“Bye”或“Endsas”

二、SAS的工作窗口 标题栏、菜单栏、命令框、工具栏 • 编辑器程序编辑窗口 • 日志运行过程记录窗口 • 输出结果输出窗口 • 结果/资源管理器

三、SAS中的几个菜单模块 • 分析家模块菜单栏解决方案分析分析家 • 交互式数据分析模块菜单栏解决方案分析交互式数据分析 • 向导式数据分析模块菜单栏解决方案分析向导式数据分析 • ASSIST模块菜单栏解决方案 ASSIST

分析家模块

交互式数据分析模块

ASSIST模块

第二节 SAS数据集 SAS数据集(SAS Dataset) 数据值被安排在一个矩阵式的表格结构中每一行数据表示一个观测（Observation）每一列数据表示一个变量（Variable） • 变量命名：1~8个字符，第1个字符必须是字母，后面可以是字母、数字和下划线 • 变量类型：数值型、字符型和日期时间型字符型变量名后加“$”表示，日期型: '16OCT98'D，时间型: '9:25:30'T • 变量缺失值：用“．”表示

一、SAS数据集的种类 • 临时SAS数据集不保存，一旦退出SAS就消失。 • 永久SAS数据集保存在用户指定的文件夹里。需要指定用户文件夹的位置(创建库标记)。

二、创建SAS永久数据集 1. 创建新的库标记点工具栏按钮，打开新建逻辑库对话框在名称框中键入库标记名在路径框中指定相对应的文件夹，OK 可以按浏览查找文件夹位置可以在右上角启动时启用前打钩，即启动SAS就自动建立这个库标记。

2. 建立新的SAS数据集 菜单栏解决方案分析分析家 • 打开分析家窗口直接输入数据 • 保存数据：文件保存(工具栏 ) 在逻辑库框中选择已建立的库标记 • 选Work 可以建临时数据集 • 也可在此建立新的库标记在下面的成员名框中键入数据集文件名，保存

三、由其它类型数据文件转换成SAS数据集 菜单栏文件导入数据SAS可以直接与下列格式文件互相转换 • Microsoft Excel 97/2000/2002 File (*.xls) • Microsoft Access 97/2000/2002 Database • dBASE/FoxBASE File (*.dbf) • Lotus 1/3/4 File (*.wk1/3/4) • Delimited File (*.*) 空格分隔 • Tab Delimited File (*.txt) 制表符分隔 • Comma Separated Velues(*.csv)逗号分隔

第三节描述性统计 1. 打开已有的SAS数据集： • 常用工具栏打开按钮 • 菜单栏文件打开(按SAS名称打开) 2. 现场输入数据：在类似 Excel的工作表中的某一列第一行开始输入数据，每一个变量输在一列中，如果有20个人(观测)每人有4个变量：性别、年龄、身高和体重，建成的数据集应该有4列20行。（单击列标题可以改变量名）

一、数值变量的描述性统计 (1)作简单统计描述（每个变量输在1列中）菜单栏统计描述性统计汇总统计量把要分析的变量选入Analysis窗口有分组变量可以选入Class窗口选Statistics可以选更多的统计分析结果选Plots可以作箱式图或直方图选Variables可以对变量有更多的选择方式，如频数变量的选入 OK 完成

（2）作详细统计描述 菜单栏统计描述性统计分布把要分析的变量选入Analysis窗口有分组变量可选入Class窗口选Plots可以作箱式图、直方图或概率图选Fit可以在直方图中加上指定的曲线选Variables可以对变量有更多的选择方式，如频数变量的选入 OK 完成

详细描述结果(1) 矩 N 24 权重总和 24 均值 1.2846 观测总和 30.83 标准偏差 0.4687 方差 0.2196 偏度 0.1060 峰度 -0.9930 未校平方和ΣX2 44.6555 校正平方和 5.0518 变异系数 36.4835 标准误差均值 0.0957 基本统计测度位置变异性均值 1.284583 标准偏差 0.46866 中位数 1.270000 方差 0.21964 众数 1.200000 极差 1.57000 四分位极差 0.79000

详细描述结果(2) 位置检验: Mu0=0 检验 --统计量--- -------P 值------- t 检验学生 t t 13.4279 Pr > |t| <.0001 符号检验符号 M 12 Pr >= |M| <.0001 符号秩和检验符号秩 S 150 Pr >= |S| <.0001 分位数（定义 5）分位数估计值 100% 最大值 2.110 99% 2.110 95% 2.070 90% 1.870 75% Q3 1.615 50% 中位数 1.270 分位数估计值 25% Q1 0.825 10% 0.640 5% 0.640 1% 0.540 0% 最小值 0.540

极值观测 ----最小值---- ----最大值---- 值观测值观测 0.54 12 1.80 8 0.64 14 1.87 9 0.64 13 1.87 24 0.75 15 2.07 10 0.76 16 2.11 11

二、分类变量的描述性统计 • 作一维频数表菜单栏统计描述频数统计把变量选入Frequencies 窗口，OK • 作二维频数表菜单栏统计表分析分别把变量选入Row、Column、Strata窗口，OK 用Tables可以选择在每个格中出现更多结果

一维频数表结果 变量名 G 频数百分比累计频数累计百分比 2 78 30.2 78 30.2 3 85 32.9 163 63.2 4 95 36.8 258 100.0

二维频数表结果 B (行变量名) 频数| 百分比 | C(列变量名) 行百分比| 列百分比| 1 | 2 | 3 | 4 | 合计 ---------+--------+---------+---------+--------+ 1 | 0 | 6 | 37 | 26 | 69 | 0.00 | 6.32 | 38.95 | 27.37 | 72.63 | 0.00 | 8.70 | 53.62 | 37.68 | | . | 75.00 | 67.27 | 81.25 | ---------+--------+---------+---------+--------+ 2 | 0 | 2 | 18 | 6 | 26 | 0.00 | 2.11 | 18.95 | 6.32 | 27.37 | 0.00 | 7.69 | 69.23 | 23.08 | | . | 25.00 | 32.73 | 18.75 | ---------+--------+---------+---------+--------+ 合计　 0 8 55 32 95 0.00 8.42 57.89 33.68 100.00

第四节数值变量资料假设检验 一、未知总体与己知总体均数比较把一组样本的数据输在一列中菜单栏统计假设检验　均值的单样本 t 检验　　在Variable窗口选入变量，Mean 窗口输入μ, OK 选Plots可以作箱式图、条图或 t 分布曲线图 • μ和σ己知时可选均值的单样本 u 检验，在 Mean 窗口输入μ, Std Dev窗口输入σ。

单样本 t 检验结果 One Sample t-test for a Mean Sample Statistics for x (样本统计量) N Mean Std. Dev. Std. Error 15 3236.67 586.60 151.46 Hypothesis Test (假设检验) Null hypothesis: H0 Mean of x = 3000 Alternative: H1 Mean of x ^= 3000 t Statistic Df Prob > t t值自由度 P值 1.563 14 0.1405

二、配对设计资料比较的 t检验 配对的数据分别输在两列中菜单栏统计假设检验均值的双样本成对 t 检验分别选入第一列和第二列变量，OK 选Plots可以作箱式图、均值条图或 t 分布曲线图

配对t检验结果 Two Sample Paired t-test for the Means of X1 and X2 Sample Statistics (样本统计量) Group N Mean Std. Dev. Std. Error X1 10 70.7 14.568 4.6069 X2 10 69.8 14.793 4.6781 Hypothesis Test (假设检验) Null hypothesis: H0 Mean of (X1 - X2) = 0 Alternative: H1 Mean of (X1 - X2) ^= 0 t Statistic Df Prob > t t值自由度 P值 1.247 9 0.2440

三、完全随机设计两总体均数比较 t检验 分析的变量和分组变量各输在一列中菜单栏统计假设检验均值的双样本 t 检验在Dependent窗口选入要分析的变量在Group窗口选入分组变量，OK 选Plots可以作箱式图、均值条图或 t 分布曲线图

两样本均数比较 t 检验结果 Two Sample t-test for the Means of X within G Sample Statistics 样本统计量 Group N Mean Std. Dev. Std. Error 0 11 1.5209 0.4218 0.1272 1 13 1.0846 0.4221 0.1171 Hypothesis Test 假设检验 Null hypothesis: H0 Mean 1 - Mean 2 = 0 Alternative: H1 Mean 1 - Mean 2 ^= 0 If Variances Are t statistic Df Pr > t Equal 方差齐2.524 22 0.0193 Not Equal方差不齐 2.524 21.35 0.0196

四、两组完全随机设计资料方差齐性检验 分析的变量和分组变量各输在一列中菜单栏统计假设检验方差的双样本检验在Dependent窗口选入要分析的变量在Group窗口选入分组变量，OK

两样本方差齐性检验结果 Two Sample Test for Variances of X within G Sample Statistics (样本统计量) Group N Mean Std. Dev. Std. Error 0 11 1.5209 0.4218 0.1272 1 13 1.0846 0.4221 0.1171 Hypothesis Test (假设检验) Null hypothesis: H0 Variance 1 / Variance 2 = 1 Alternative: H1 Variance 1 / Variance 2 ^= 1 - Degrees of Freedom自由度- F Numer. Denom. Pr > F F值分子分母 P值 1.00 10 12 0.9874

第五节方差分析 一、单因素方差分析分析的变量和分组变量各输在一列中菜单栏统计方差分析单向方差分析在 Dependent 窗口选入分析变量在 Independent 窗口选入分组变量 • 需要作均数间两两比较时选 Means，在 Comparison Mathod 窗口中选两两比较的方法，在 Main Effacts 窗口选中分组变量，Add OK • 需要作方差齐性检验时选Tests，在Tests for Equal variance 中选择一种方法，OK

方差分析结果Analysis of Variance Procedure Dependent Variable: X Source DF Sum of Squares Mean Square F Value Pr > F 变异来源自由度 SS MS F P Model模型2 2384.02550505 1192.01275253 5.85 0.0077 Error误差27 5497.83616162 203.62356154 Total总29 7881.86166667 R-Square R2 C.V. Root MSE Sy.x X Mean 0.302470 12.93519 14.26967279 110.31666667 Source DF Anova SS Mean Square F Value Pr > F 变异来源自由度 SS MS F P G组间2 2384.02550505 1192.01275253 5.85 0.0077

Student-Newman-Keuls test for variable: X 均数间两两比较q检验（SNK法） Means with the same letter are not significantly different. 相同字母表示的均数无显著性差别 SNK Grouping Mean N G A 122.800 10 3 B 105.455 11 1 B B 102.389 9 2 表示第三组均数大于前两组，而前两组均数之间的差异无统计学意义。

二、两因素、三因素方差分析 分析变量输在一列中，两因素时分组变量输两列，三因素时分组变量输三列。菜单栏统计方差分析因子方差分析在Dependent窗口选入分析变量在Independent 窗口选入各分组变量（交叉设计可按三因素方差分析方法作）需要作均数间两两比较时选 Means Comparison Means Breakdown 可以分组作统计描述

三、析因设计资料的方差分析 数据输入方法同两因素、三因素菜单栏统计方差分析因子方差分析在Dependent窗口选入分析变量在Independent 窗口选入各分组变量 • 交互作用分析选Model, 在 Standard Models 窗口中选2-way interaction 或 3-way interaction 把分组变量和交互项选入Effects in model

四、正交试验设计资料的方差分析 输入正交试验表中各主效应列水平和实验结果如：应用L8(27)表的正交试验结果 SAS中输入数据

四、正交试验设计资料的方差分析 菜单栏统计方差分析因子方差分析在Dependent窗口选入分析变量在Independent 窗口选入各分组变量 • 交互作用分析选Model, 在 Independent 窗口逐一选中交互作用项，点Cross，把主效应和交互效应项选入Effects in model，OK 有重复测量的数据输入时，正交表中各主效应列也要重复输，如重复实验3次，同一实验号正交表输3行，各行分别对应一次实验结果。

五、裂区设计资料的方差分析 数据输入方法同两因素、三因素菜单栏统计方差分析因子方差分析在Dependent窗口选入分析变量，在Independent 窗口选入分组变量A(大区)、 B(小区)、 C(区组) • 选Model Standard Models Effects up to2-way interaction Effects in model窗口中 B*C Remove OK • 选Test 在Effects窗口中 A*BError 在Effects窗口中 A、B Add OK OK

六、重复测量资料的方差分析 数据输入方法同两因素、三因素菜单栏统计方差分析重复测量在Dependent窗口选入分析变量X，在Independent 窗口选入分组变量A(处理)、B(个体)、C(时间) 选 Model功能 • 选Subjects,选independent中变量B Add,变量A nest • 选Model Standard Models Effects up to2-way interaction 选中Effects in model窗口中B、A*C、B*C Remove(只留A、C、A*C) • 选Repeated ，选 independent 中变量CAdd 需要作两两比较时选Means LS Means,需要比较的变量选入LS Means框中,选中Computer pairwise differences OK OK

七、协方差分析（1） 数据输入时协变量X、分析变量Y、分组变量G各输成一列，先检验是否满足协方差分析的条件 1.各样本变量Y均来自方差齐的正态分布总体 ①正态性检验菜单栏统计描述性统计分布在Analysis窗口选入要分析的变量Y，在Classification窗口选入分组变量，打开 Fit 窗口选 Normal，OK OK ②方差齐性检验菜单栏统计方差分析单向方差分析在 Dependent 窗口选入分析变量Y，在 Independent 窗口选入分组变量，打开Tests窗口，选Bartlett’s test OK

七、协方差分析（2） 2. 各样本的协变量与分析变量间有直线关系，即各回归系数均有统计学意义菜单栏统计回归简单把分析变量Y选入Dependent框，协变量选入Explanatory框，打开Variables窗口，把分组变量选入By Group框，OK 打开Plots窗口Predicted Plot Observed VS Independent OK ，可以分组作散点图。

七、协方差分析（3） 3.作各回归系数间比较：菜单栏统计方差分析线性模型在Dependent窗口选入分析变量Y，在Class 窗口选入分组变量G，在Quantitative窗口选入协变量X 选 Model功能，将 Independent 中协变量X和分组变量G选中，Cross，OK OK 4.作修正均数间比较：选Model功能，将Effects in model中X*G选中，Remove , OK OK 5.修正均数间两两比较：选Means LS Means，将分组变量G选入LS Means框中,选中Computer pairwise differences, OK

协方差分析结果1：各回归系数间比较 Source DF Sum of Squares Mean Square F Value Pr > F Model 5 104.3919881 20.8783976 28.98 <.0001 Error 24 17.2908786 0.7204533 Total 29 121.6828667 Source DF Type I SS Mean Square F Value Pr > F X 1 11.21842140 11.21842140 15.57 0.0006 A 2 93.04995906 46.52497953 64.58 <.0001 X*A 2 0.12360759 0.06180380 0.09 0.9181 即：变异来源 DF SS MS F P 回归系数间 2 0.12360759 0.06180380 0.09 0.9181 组内 24 17.2908786 0.7204533

协方差分析结果2：修正均数间比较 Source DF Sum of Squares Mean Square F Value Pr > F Model 3 104.2683805 34.7561268 51.89 <.0001 Error 26 17.4144862 0.6697879 Total 29 121.6828667 Source DF Type III SS Mean Square F Value Pr > F X 1 19.62837379 19.62837379 29.31 <.0001 A 2 93.04995906 46.52497953 69.46 <.0001 即：变异来源 DF SS MS F P 修正均数间 2 93.04995906 46.52497953 69.46 <.0001 公共 26 17.4144862 0.6697879

第六节定性资料假设检验 一、样本率与总体率比较把样本的数据(必须是两分类)输在一列中菜单栏统计假设检验　比例的单样本检验　　在Variable窗口选入变量在Level of interest 窗口下箭头选择代表阳性水平的数值，在Prop 窗口输入π, OK

二、两样本率比较— u检验 分析变量(必须是两分类)和分组变量各输在一列中菜单栏统计假设检验　比例的双样本检验　　 • 在Dependent窗口选入分析变量， • 在Level of interest 窗口下箭头选择代表阳性水平的数值， • 在Group 窗口选入分组变量。

三、样本率之间比较—χ2检验 分别输入行变量、列变量和频数共三列菜单栏统计表分析把行变量选入Row，列变量选入Column，频数选入Cell counts，打开Statistics窗口选择统计量： Chi-square Statistics 计算χ2统计量 Measures of association 计算关联性统计量 Mantel-Haenszel Statistics 队列研究和病例对照研究 Measures of Agreement 配对一致性检验 Exact test for (r×c) tables计算行×列表的确切概率

A * B表的统计量 统计量自由度值概率卡方(χ2) 1 6.133 0.013 似然比卡方 1 6.304 0.012 连续校正卡方 1 5.118 0.024 Mantel-Haenszel卡方1 6.084 0.014 Phi系数 0.221 列联系数 0.215 Cramer 的 V 0.221 Fisher精确概率单元格(1,1)频数(F) 15 左侧 Pr<=F 0.997 右侧 Pr>=F 0.011 表概率(P) 0.009 双侧 Pr<=P 0.018

配对四格表(Measures of Agreement)检验结果： McNemar检验统计量(S) 10.756 DF 1 P > S 0.0001 简单 Kappa 系数 Kappa 0.174 渐近标准误差 0.086 95%置信下限 0.006 95%置信上限 0.346 样本大小= 132

SAS 菜单系统 — 分析家模块 S tatistical A nalysis S ystem