550 likes | 789 Views
8.2 FREQ 过程. 8.2.1 概述 FREQ 过程生成一维至 n 维的频数表和交叉表,并能将结果输出至数据集中。 例 : SCORE 为含学生成绩的数据集,用 VFMT. 格式把学生的平均成绩分成 A 、 B 、 C 三等,由 FREQ 过程产生每一分数段的学生人数和占总数的百分数等信息。. PROC FORMAT ; VALUE VFMT LOW-<80='C' 80-<90='B'
E N D
8.2 FREQ 过程 8.2.1 概述 FREQ过程生成一维至n维的频数表和交叉表,并能将结果输出至数据集中。 例: SCORE为含学生成绩的数据集,用VFMT.格式把学生的平均成绩分成A、B、C三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数等信息。
PROC FORMAT ; VALUE VFMT LOW-<80='C' 80-<90='B' 90-HIGH='A‘ ; DATA B; SET SASUSER.SCORE; V=MEAN(OF T1-T3) ; PROC FREQ DATA=B ; FORMAT V VFMT. ; TABLES V;
Cumulative Cumulative V Frequency Percent Frequency Percent ----------------------------------------------- C 5 33.3 5 33.3 B 7 46.7 12 80.0 A 3 20.0 15 100.0
8.2.2 语句说明 PROC FREQ 过程使用如下语句: PROC FREQ [选择项列表]; TABLES 请求式…[/选择项]; WEIGHT 变量; BY 变量; OUTPUT [选择项];
PROC FREQ [选择项列表]; • DATA=SAS数据集; • ORDER=FREQ|DATA|INTERNAL| FORMATTED • FORMCHAR(1,2,7)=字符串 规定用来构造列联表单元的轮廓线和分割线的字符。(1)垂直线(2)水平线(3)水平线与垂直交叉线。 缺省, FORMCHAR(1,2,7)=‘|-+’ • PAGE 每页输出一张表
TABELS 请求式 </选择项> (1)请求式 (request-list): 请求式由一个或多个由“*”号联连起来的变量组成。一维表由一个变量名产生;二维表由“*”隔开两个变量组成;任何数量的变量能被“*”连起来得到多维的表格。 一个FREQ过程可有多个TABLES语句,每个TABLES语句也可以有多个请求式。
一维频数表:只需在TABLES语句中简单地命名这一变量。 例: TABELS X; • 二维频数表:在TABELS语句中用星号“*”连接两个变量。第一个变量的值形成表的行,而第二个变量的值形成表的列。 例: TABLES A * B; • n维列联表:在TABELS语句中用“*”联接给定的三个或n个变量名。最后一个变量的值形成表的列,倒数第二个变量的值形成表的行,其它变量的每一级水平(或水平组合)形成了一层,且每层都形成了分立的列联表。
(2)选择项 在TABLES 语句的斜杠(/)后面可使用的选择项有许多种,现将常用的几种选择项介绍如下: 1) 一般选择项: ①MISSING:象分析非缺项值那样分析缺项值,且在百分数计算和其他统计计算时包括缺项值。 ② LIST:不是用列联表而是用列表格式打印二维或多维表格。但当需要统计检验和联合测量时,不能使用LIST选择项。
2) 请求统计分析的选择项 ① CHISQ: 请求卡方(χ2 )检验和基于卡方的有关测量。检验包括Pearson卡方、似然比卡方和曼特尔-享塞尔(Mantel-Haenszel)卡方。测量值包括斐( phi)系数,列联系数和克莱姆系数V(Cramer‘v )。对于 2*2 表也包括费雪尔(Fisher)精确检验。 ② EXACT:要求对大于2*2的表进行Fisher精确检验。
3) 请求增加表格信息及选择项 ①EXPECTED:请求打印在独立(或齐性)假设下的期望格频数。 ②DEVIATION:请求打印出各格的格频数和期望值的偏差。 ③CELLCHI2:请求打印出每一格对总χ2 (卡方)统计的贡献。 ……
4) 禁止打印选择项 ①NOFREQ: 禁止打印列联表中的格频数。 ②NOPERCENT:禁止打印列联表中的百分数。 ……
8.2.4 举例 DATA A; INPUT A B @@; CARDS; 1 2 2 1 . 2 . . 1 1 2 1 PROC FREQ ; TABLES A*B; TITLE '2-WAY CONTINGENCY TABLE'; PROC FREQ ORDER=DATA; TABLES A*B /LIST; TITLE '2-WAY FREQUENCY TABLE, ORDER=DATA';
8.2.5 卡方检验 卡方检验为一种用途较广的显著性检验方法,常用于检验两个或两个以上样本率或构成比之间差别的显著性。 对于不同属性的变量,从列联表中可以得到它们联合分布的信息,也可以获得一个变量取不同数值时,另一个变量的分布是否有显著的不同。
为了检验: H0:行列变量无关联; H1:行列变量有关联 统计上使用χ2统计量。 χ2 =((A-T)2/T), 其中A为实际观测到的频数,T为理论频数或期望频数。在H0成为时A与T值应该比较接近,大的χ2值是极端情况。
FREQ过程进行卡方检验的步骤: 1)假设样本率或构成比之间无差别。 即:H0:行列变量间无关联 H1:行列变量间有关联 2)在TABLES语句中指定CHISQ选择项。 3)根据给出的结果, 进行分析得出结论。
举例:在二乙基亚硝氨诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝氨向鼻腔内滴注。另一组在鼻注的基础上加肌注维生素B12,问两组发癌率的差别有无显著性。实验结果如下表。举例:在二乙基亚硝氨诱发大白鼠鼻咽癌的实验中,一组单纯用亚硝氨向鼻腔内滴注。另一组在鼻注的基础上加肌注维生素B12,问两组发癌率的差别有无显著性。实验结果如下表。
DATA ABC; DO A=1 TO 2; DO B=1 TO 2; INPUT F @@; OUTPUT; END; END; CARDS; 52 19 39 3 PROC FREQ; WEIGHT F; TABLES A*B /CHISQ EXPECTED NOPERCENT NOCOL; RUN;
TABLE OF A BY B A B Frequency| Expected | Row Pct | 1| 2| Total --------- -------- -------- 1 | 52 | 19 | 71 | 57.177 | 13.823 | | 73.24 | 26.76 | --------- -------- -------- 2 | 39 | 3 | 42 | 33.823 | 8.177 | | 92.86 | 7.14 | --------- -------- -------- Total 91 22 113
STATISTICS FOR TABLE OF A BY B Statistic F Value Prob --------------------------------------------------- Chi-Square 1 6.478 0.011 Likelihood Ratio 1 7.310 0.007 Chi-Square Continuity Adj. 1 5.287 0.021 Chi-Square Mantel-Haenszel 1 6.420 0.011 Chi-Square Fisher's Exact Test (Left) 8.26E-03 (Right) 0.999 (2-Tail) 0.013
Phi Coefficient -0.239 Contingency Coefficient 0.233 Cramer's V -0.239 Sample Size = 113
上半部分是对资料的简单描述(略),下半部是统计检验的结果:上半部分是对资料的简单描述(略),下半部是统计检验的结果: 1)未校正的卡方= 6.478,DF=1,P≤0.011 2)似然比卡方= 7.310,DF=1,P≤0.007 3)连续性校正卡方= 5.287,DF=1,P≤0.021 4) Mantel-Haenszel 卡方=6.420,DF=1,P≤0.011 5) Fisher精确检验的结果:左侧概率P=8.26E-03,右侧概率P=0.999,双侧概率P=1.32E-02。 Mantel-Haenszel卡方:对于有序变量,检验是否随一外变量取值的增加,另一变量的取值是否有变大或变小的趋势。
Fisher精确检验:当样本容量不太大时用公式: χ2 =((A-T)2/T)检验并不太合适;当df=1, T<5时,用公式χ2 =((|A-T|-0.5)2/T)校正;当T<5 ,特别是当总观察数<40时,可使用Fisher提出的χ2统计量的精确分布来计算p值。这一做法是基于概率中的多项分布来计算观测到情况发生的可能性。 为了得到p值,还必须计算其它各种可能情况发生的概率。所以当容量稍大时,或列联表的行数或列数稍大时,计算量会变得无法承受。 FREQ过程,对于大于2×2的表,若请求Fisher 精确检验需在指定CHISQ选择项后,再指定EXACT 选择项。
关联性的度量: χ2统计量只提供了有无关联性的证据,它的大小并不直接就是关联性的度量。 SAS软件中提供了由χ2统计量出发的多个衡量R×C列联表中行列变量关联性的度量。即: Phi Coefficient、Contingency Coefficient、Cramer‘s V。 除2×2列联表的 Phi Coefficient的值位于-1~1 之间外,其它关联性度量值都在0~1之间,关联性度量值的绝对值越大,关联性越强。绝对值接近于0的关联性较弱。
结论: 本例两组发癌率有显著性差异(因为:双侧概率P≤0.0132,不支持原假设)。 一个表格用这五种方法算出的结果不完全一致,一般地讲,最好以Fisher检验的结果为准。
注:程序中A、B分别表示行、列变量,如原始数据不是4格表资料,而是R×C表资料,则两个DO语句要改写成:注:程序中A、B分别表示行、列变量,如原始数据不是4格表资料,而是R×C表资料,则两个DO语句要改写成: DO A=1 TO R; DO B=1 TO C; F表示各格子内的具体数值。
8.4 PLOT 过程 PLOT过程可用于描绘散点分布图,以直观地显示数据的变化趋势及数据间的相关关系等。
DATA D3; DO X=0 TO 360 BY 20; Y=SIN(X*3.14159/180); OUTPUT; END; PROC PLOT ; PLOT Y*X; RUN;
Plot of Y*X. Legend: A = 1 obs, B = 2 obs, etc. 1 + A A | A A | A A Y | | A A | 0 + A A A | | A A | | A A | A A -1 + A A ---+---------+---------+---------+---------+-- 0 100 200 300 400 X
通过PLOT过程提供的其它语句和选择项可对散点图作出如下更加具体的要求:通过PLOT过程提供的其它语句和选择项可对散点图作出如下更加具体的要求: l可以根据用户的要求选择散布图的作图符号; l可以用变量值加标签。 l可以选择坐标的刻度、间隔及标记; l可以选择图的大小;可在一页纸上画两个以上图。 l两个散布图可以重叠在一张图上。 l可绘制等值线图(或称轮廓图,层次图等)。 l可对图沿水平方向或垂直方向进行扩展.
8.4.2 语句说明 在PLOT过程中可使用下列语句: PROC PLOT [选择项]; BY 变量表; PLOT 绘图表达式/选择项; BY语句是可选语句.
应用举例 例8.4.3某一地区有12个采样点, 测得某类废水中COD和BOD的浓度如程序中数据所示。编程绘制其关系图。程序如下: DATA DD; INPUT COD BOD @@; CARDS; 1112.3 154.5 1560.2 210.3 899.5 133.6 800.4 110.2 1443.2 180.8 1555.5 201.4 700.4 103.5 456.3 90.7 1433.2 177.7 1421.5 171.0 1600.3 221.5 560.8 80.9 PROC PLOT ; PLOT COD*BOD; RUN;
2000 + | | | A 1500 + A A A | A A COD | | A 1000 + | A | A A | 500 + A A ---+-------+-------+-------+-------+-------+-------+-------+-------+-- 80 100 120 140 160 180 200 220 240
8.5 CHART过程 CHART过程利用图表的方式形象地描述变量的取值及两个以上变量之间的关系。CHART过程把给定数据集中的变量,用条形图(又称直方图,包括垂直、水平直方图及立体直方图)、饼形图和星形图等方式形象地描绘出来,使用户能够直观地了解这些变量的特性。
8.5.2 语句说明 PROC CHART [选择项]; BY 变量表; VBAR 变量表 [/选择项]; HBAR 变量表 [/选择项]; BLOCK 变量表 [/选择项]; PIE 变量表 [/选择项]; STAR 变量表 [/选择项];
第九章t检验和方差分析 在科研工作中,我们往往根据样本之间的差异,去推断其总体之间是否有差异。样本的差异可能是由抽样误差所致,也可能是由本质的不同所致。应用统计学方法来处理这类问题,称为“差异的显著性检验”。若已知总体为正态分布,进行差异的显著性检验,称为“参数性检验”,SAS中可用MEANS、TTEST、ANOVA、GLM等过程完成此类检验。
在一个具体的统计问题中,原假设(H0)是一种经常发生的情况。在一个具体的统计问题中,原假设(H0)是一种经常发生的情况。 显著性水平(常取0.05),作为判断观测到的结果“稀有性”的一个尺度。即当p<时,已观测到的结果就是稀有的极端情况,将会拒绝原假设。 通过计算统计量,如“t”值,可以确定它经常取值的范围和取极端值的可能性。根据样本观测到的结果,就可以确定统计量取比观测到的结果更为极端的数值的可能性,即p值,进而与比较作出判断。
9.1 t检验 t检验是用于两组数据均数间差异的显著性检验。它常用于以下场合: 1. 样本均数与总体均数差异的显著性检验。用MEANS过程完成。 2. 同一批对象实验前后差异的显著性检验(自身对照比较)或配对资料差异的显著性检验(配对比较)。用MEANS过程完成。
3.两样本均数差异的显著性检验 两样本均数差异的比较是两组原始资料各自独立,没有成对关系,每组观测值都是来自正态总体的样本,两组中样本个数可以相等,也可以不等。 在进行两样本均数差异的显著性检验时,根据方差的不同,采用不同的数学模型分别进行。 两样本均数差异的显著性检验用TTEST 过程完成。
9.1.2 用MEANS过程作t检验 1. 过程格式 用于t检验的MEANS过程,使用如下语句: PROC MENAS MEAN STD STDERR T PRT [DATA=数据集]; VAR 变量;
2. 说明 (1) PROC MEANS语句中,选择了5个统计量: MEAN 、STD、 STDERR、 T 、PRT( 均数、标准差、标准误、t值、P值)。 (2) VAR语句中的变量是分析变量。这是一个代表差值的变量。该差值可以是每一个观测值与总体均数之差;配对资料中每一对观测值之差;自身比较时的前后观测值之差。
3. 举例 例1.样本均数与总体均数差别的显著性检验。 已知某水样中含CaCO3的真值为20.7mg/L,现用某法重复测定该水样11次,CaCO3的含量为:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20.00,23.00,22.00。问用该法测CaCO3的含量所得的均值与真值有无显著差别?
程序如下: DATA t2; INPUT x @@; y=x-20.7; CARDS; 20.99 20.41 20.10 20.00 20.91 22.60 20.99 20.41 20.00 23.00 22.00 PROC MEANS MEAN STD STDERR T PRT; VAR y; RUN;
Analysis Variable : Y Mean Std Dev Std Error T Prob>|T| ----------------------------------------------- -0.337 1.052 0.317 1.064 0.3125 ----------------------------------------------- 结论:因t=1.064,p=0.3125>0.05,不能拒绝H0,故不能认为所得的均值与真值有显著差别。即此法可用来测定水中CaCO3的含量。
例2.配对比较的t检验 为研究食物中维生素E与肝脏中维生素A含量的关系,将大白鼠按性别、体重配对,每对随机分配,一个用正常饲料,一个用缺乏维生素E的饲料。经过一个时期饲养,杀死动物测定肝中维生素A的含量,结果如表9-1。
程序如下: DATA a; INPUT x y @@; d=x-y; CARDS; 3550 2450 2000 2400 3000 1800 3950 3200 3800 3250 3750 2700 3450 2500 3050 1750 PROC MEANS MEAN STD STDERR T PRT; VAR d; RUN;
结果说明: 因 t=4.21 p=0.0040<0.05 ,故拒绝H0,接受H1。认为两者间有非常显著差异,即正常饲料组鼠肝维生素A含量比维生素E缺乏组的含量大。
9.1.3 用TTEST过程作t检验 1. 过程格式: PROC TTEST [DATA=数据集]; CLASS 变量; VAR 变量;