1.61k likes | 1.97k Views
第四章. 统计推断 (statistical inference). 第四章 统计推断. 由一个样 本或一糸 列样本所 得的结果 来推断总 体的特征. 假设检验. 统 计 推 断. 参数估计. 任务. 分析误差产生的原因. 确定差异的性质. 排除误差干扰. 对总体特征做出正确判断. 第四章. 假设检验的原理与方法. 第一节. 样本平均数的假设检验. 第二节. 样本频率的假设检验. 第三节. 参数的区间估计与点估计. 第四节. 方差的同质性检验. 第五节. 第一节. 假设检验的原理与方法. 第一节 假设检验.
E N D
第四章 统计推断(statistical inference)
第四章 统计推断 由一个样 本或一糸 列样本所 得的结果 来推断总 体的特征 假设检验 统 计 推 断 参数估计
任务 分析误差产生的原因 确定差异的性质 排除误差干扰 对总体特征做出正确判断
第四章 假设检验的原理与方法 第一节 样本平均数的假设检验 第二节 样本频率的假设检验 第三节 参数的区间估计与点估计 第四节 方差的同质性检验 第五节
第一节 假设检验的原理与方法
第一节 假设检验 一 概念 : 假设检验(hypothesis test)又称显著性检验(significance test),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。
小概率原理 概率很小的事件在一次抽样试验 中实际是几乎不可能发生的。 如果假设一些条件,并在假设的条件下能够准确地算出事件A出现的概率α 为很小,则在假设条件下的n次独立重复试验中,事件A将按预定的概率发生,而在一次试验中则几乎不可能发生。 =0.05/0.01
平均数的检验 参数检验 频率的检验 假 设 检 验 方差的检验 秩和检验 符号检验 非参数检验 游程检验 秩相关检验
二 、假设检验的步骤 例:设矽肺病患者的血红蛋白含量具平均数0=126(mg/L), 2 =240(mg/L)2的正态分布。现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。 治疗前 0=126 2 =240 N ( 126,240 ) 治疗后 n =6 x =136 未知 那么 =0 ? 即克矽平对治疗矽肺是否有效?
1 、提出假设 H0 误差 效应 无效假设 /零假设 /检验假设 0= 对 立 处理 效应 备择假设 /对应假设 0 HA
平均数的假设检验 x-0=136-126=10(mg/L)这一差数 是由于治疗造成的,还是抽样误差所致。 例:克矽平治疗矽肺病是否能提高血红蛋白含量? 检验治疗后的总体平均数是否还是治疗前的126(mg/L)? H0:μ=μ0 =126(mg/L) HA:μ≠μ0 本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。
2 、 确定显著水平 能否定H0的人为规定的概率标准称为显著水平,记作。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理基础上建立的假设检验也常取=0.05和=0.01两个显著水平。 =0.05 =0.05 显著水平* P< =0.01 极显著水平**
x- 136-126 u= = = 1.581 x √40 3 、选定检验方法,计算检验统计量,确定概率值 根据研究设计的类型和统计推断的目的选择使用不同的检验方法。 例: P( u >1.581)=2×0.0571=0.1142
4、作出推断结论:是否接受假设 小 概 率 原 理 接受H0 否定HA P> 可能正确 否定H0 接受HA P< 可能错误
例:上例中 P=0.1142>0.05 所以接受H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。
已知: P( u >1.96) =0.05 0.025 0.95 0.025 P( u >2.58) =0.01 u >1.96 P( u ) <0.05 差异达显著水平 u >2.58 P( u ) <0.01 差异达极显著水平
P(-1.96x <x< +1.96x) =0.95 + 1.96x 三 、双尾检验与单尾检验 0.025 0.95 0.025 左尾 右尾 0 -1.96x +1.96x 否定区 接受区 否定区 临界值: + ux u
P(-2.58x <x< +2.58x) =0.99 0.005 0.99 0.005 左尾 右尾 0 -2.58x +2.58x 否定区 接受区 否定区 双尾检验 (two-sided test) 临界值: + 2.58x
单尾检验 (one-sided test) 假设: H0: ≤0 HA: > 0 H0: ≥0 HA: < 0 0.95 0.05 0.05 0.95 接受区 1.64 -1.64 接受区 否定区 右尾检验 左尾检验
2 2 否定区 接受区 否定区 接受区 否定区 双尾 检验 分位数 u 0.05=1.96 u 0.01=2.58 > 单尾 检验 分位数 u 0.05=1.64 u 0.01=2.33 查表时,单尾概率等于双尾概率乘以2
假设检验的两类错误 H0正确 H0 错误 否定H0错误() 推断正确(1-) 接受H0推断正确(1-)错误() 四 、两类错误 第一类错误(type I error),又称弃真错误或 错误; 第二类错误( type IIerror) ,又称纳伪错误或 错误
Ⅰ Ⅱ 0 0.95 0.025 =0 错误 Ⅰ和Ⅱ重合 0.025 犯第一类错误的概率等于显著水平值
Ⅰ和Ⅱ不重合 Ⅰ Ⅱ C1 C2 2 2 -u 0 u 犯第二类错误的概率记为值
结论 1、 两类错误既有联系又有区别 错误只在否定H0时发生 错误只在接受H0时发生 错误增加 错误减小 错误增加 错误减小
结论 2、 还依赖于 - 0 的距离 3、n ,2 可使两类错误的概率都减小.
0.95 0.05 0.05 0.95 接受区 1.64 -1.64 接受区 否定区 单尾检验 否定区只在一侧 右尾检验 左尾检验
假设检验的步骤: 分 析 题 意 提 出 假 设 确 定 显 著 水 平 计 算 检 验 统 计 量 作 出 推 断
第二节 样本平均数的假设检验
大样本平均数的假设检验 --u检验 单样本 小样本平均数的假设检验 --t检验 双样本
样本平均数 的假设检验 一、一个样本平均数 的假设检验
适用范围:检验某一样本平均数x所属的总体平均数是否和某一指定的总体平均数0相同。若相同,则说明该样本属于这个以0为平均数的指定总体;若不相同,则说明该样本所属的总体与这个指定总体( 0)不同,即有显著或极显著差异。
1、总体方差σ2已知,无论n是否大于30都可采用u检验法1、总体方差σ2已知,无论n是否大于30都可采用u检验法 例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,标准差为1.58cm,现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,其平均体长为7.65cm, 问新育苗方法与常规方法有无显著差异? 分析 (1)这是一个样本平均数的假设检验,因总体σ2已知 , 采用u检验; (2)新育苗方法的鱼苗体长≥ 或≤常规方法鱼苗体长, 应进行双尾检验。
H0:μ=μ0=7.25(cm), 即新育苗方法与常规方法所育鱼苗一月龄体长相同; HA:μ≠μ0 (1)假设 选取显著水平α=0.05 (2)水平 (3)检验 u >1.96 (4)推断 否定H0,接受HA; 认为新育苗方法一月龄体长与常规方法有显著差异。
样本(n>30) x 2、总体方差σ2未知,但n>30时,可用样本方差s2来代替 总体方差σ2,仍用u检验法 s2 总体 (μ0) σ2
例:生产某种纺织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm,例:生产某种纺织品,要求棉花纤维长度平均为30mm以上,现有一棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm, 问该棉花品种的纤维长度是否符合纺织品的生产要求? 分析 (1)这是一个样本平均数的假设检验,因总体σ2未知, n=400 > 30,可用s2代替σ2进行u检验; (2)棉花纤维只有>30mm才符合纺织品的生产要求,因 此进行单尾检验。
(1)假设 H0:μ≤ μ0=30(cm), 即该棉花品种纤维长度达不到纺织品生产的要求。 HA:μ>μ0 选取显著水平α=0.05 (2)水平 (3)检验 u <1.645 (4)推断 接受H0,否定HA; 认为该棉花品种纤维长度不符合纺织品生产的要求。
样本(n<30) x 3、总体方差σ2未知,且n<30时,可用样本方差s2来代替 总体方差σ2,采用df=n-1的t检验法 s2 总体 (μ0) σ2
例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L) 试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。 分析 (1)这是一个样本平均数的假设检验,因总体σ2未知, n=10 < 30,可用s2代替σ2进行 t 检验; (2)该次测定的水中含氧量可能>或<多年平均值,用双 尾检验。
H0:μ= μ0=4.5(mg/L),即认为该次测定与多年平均值没有显著差别。 HA: μ≠ μ0 (1)假设 (2)水平 选取显著水平α=0.05 (3)检验 t 0.05(9) =2.262 P>0.05 (4)推断 在0.05显著水平上,接受H0,否定HA; 认为该次抽样所测结果与多年平均值无显著差别,属于随机误差。
样本平均数 的假设检验 二、两个样本平均数 的假设检验
适用范围:检验两个样本平均数x1和x2所属的总体平均数1和2是否来自同一总体。适用范围:检验两个样本平均数x1和x2所属的总体平均数1和2是否来自同一总体。
样本1 X1 样本2 X2 两个样本平均数的假设检验步骤 总体1 μ1 1、提出假设 总体2 μ2 无效假设H0: μ1=μ2,两个平均数的差值 是随机误差所引起的; 备择假设HA: μ1=μ2,两个平均数的差值 除随机误差外 还包含其真实的差异,即由处理引起的;
2、确定显著水平:0.05或0.01 3、检验统计量 两个样本平均数的差数 (1)样本平均数差数的平均数 = 总体平均数的差数.
(2)样本平均数差数的方差 = 两样本平均数方差之和. 样本平均数差数的标准误
σ12=σ22=σ n1=n2=n σ12=σ22=σ n1=n2=n
当σ12 和σ22已知 H0:μ1=μ2=μ时
当σ12 和σ22未知,两样本都为大样本时 H0: μ1=μ2=μ时
当σ12 和σ22未知,两样本都为小样本时 H0: μ1=μ2=μ时
接受H0否定HA 或 否定H0接受HA 或 4、作出推断,并解释之
成组数据平均数的比较 试 验 设 计 成对数据平均数的比较