570 likes | 812 Views
计量资料的统计推断. 主要内容:. 标准误 t 分布 总体均数的估计 假设检验 均数的 t 检验、 u 检验、方差分析. 几个重要概念的回顾: 计量资料: 总体: 样本: 统计量: 参数: 统计推断 : 参数估计、假设检验. 第一节 均数的抽样误差与总体均数的估计. 一、均数的抽样误差与标准误. 欲了解某地 2000 年正常成年男性血清总胆固 醇的平均水平,随机抽取该地 200 名正常成 年男性作为 样本。 由于存在个体差异,抽得的 样本均数 不太可 能恰好等于 总体均数。. 一、均数的抽样误差与标准误. 抽样误差:
E N D
主要内容: 标准误 t分布 总体均数的估计 假设检验 均数的 t检验、u 检验、方差分析
几个重要概念的回顾: • 计量资料: • 总体: • 样本: • 统计量: • 参数: • 统计推断:参数估计、假设检验
第一节 均数的抽样误差与总体均数的估计 一、均数的抽样误差与标准误 欲了解某地2000年正常成年男性血清总胆固 醇的平均水平,随机抽取该地200名正常成 年男性作为样本。 由于存在个体差异,抽得的样本均数不太可 能恰好等于总体均数。
一、均数的抽样误差与标准误 抽样误差: 由于抽样引起的样本统计量与总体参数之间的差异 X
数理统计推理和中心极限定理表明: 1、从正态总体N(,2)中,随机抽取例数为n的样本,样本均数X也服从正态分布;即使从偏态总体抽样,当n足够大时X也近似正态分布。 2、从均数为,标准差为的正态或偏态总体中抽取例数为n的样本,样本均数X的总体均数也为,标准差为X
标准误 含义 :样本均数的标准差 计算: (标准误的估计值) 注意: X 、SX均为样本均数的标准误
标准误 意义: 反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。
标准误 用途: 衡量抽样误差大小 估计总体均数可信区间 用于假设检验
二t分布 对正态变量样本均数X做正态变换(u变 换): X 常未知而用SX估计,则为t变换:
二、t分布 t值的分布即为t分布
t分布与标准正态分布的比较 1、二者都是单峰分布,以0为中心左右对称 2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积(概率P值)较大。当ν逐渐增大时,t分布逐渐逼近标准正态分布,当ν→时,t分布完全成为标准正态分布
t界值表(附表9-1 ) t/2,:表示自由度为,双侧概率P为时t的界值
t分布曲线下面积的规律: 中间95%的t值:- t0.05/2, t0.05/2, 中间99%的t值:- t0.01/2,t0.01/2, 单尾概率:一侧尾部面积 双尾概率:双侧尾部面积 (1) 自由度(ν)一定时,p与t成反比; (2) 概率(p)一定时,ν与t成反比;
三 总体均数的估计 统计推断:用样本信息推论总体特征。 包括参数估计和假设检验 参数估计:用样本统计量估计总体参数。 1、 点(值)估计:用样本统计量作为对总体参数的估计值
2、 区间估计:根据选定的置信度(或可信度,用概率表示)估计总体参数所在的范围 置信度:估计正确的概率。1- 置信区间(confidence level, CI):
总体均数的可信区间 按一定的可信度由样本均数计算的总体均数可能所在的范围,这个范围称为总体均数的可信区间。 方法: (1) u 分布法 (2) t 分布法
总体均数的95%可信区间 总体均数的95%可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)
(1)u 分布法(均以95%CI为例) 已知时95%CI:
(1)u 分布 法 未知但n足够大时总体均数95%CI:
(2)t分布 法 未知、n小时总体均数95%CI: 按t分布原理 例题:P168
区间估计的准确度:说对的可能性大小, 用 (1-) 来衡量。99%的可信区间好于95%的可信区间 (n, S 一定时) 。 区间估计的精确度:指区间范围的宽窄,范围越宽精确度越差。99%的可信区间差于95%的可信区间(n, S 一定时)。 准确度与精确度的关系:
第二节 假设检验(hypothesis testing) 例:某地抽查了26名男性管理人员的空腹血糖,均数x为4.84mmol/L,标准差S为0.85mmol/L,已知大量调查的一般健康成年男性空腹静脉血糖均数为4.70mmol/L。试问能否认为该地抽查的26名健康男性管理人员的空腹血糖均值与一般正常健康成年男性的空腹血糖均值不同?
差异来源的分析 两种可能性: (1)抽样误差造成了二者的差别: = 0 t=…=0.844 (2)可能由于饮食习惯、生活条件等的影响,样本所代表的总体与已知总体确实不同: 0
2.5% 95% 2.5% -t0.05/2,ν 0 t0.05/2,ν 拒绝域 拒绝域 接受域 假 设 检 验
假设检验的一般步骤 1、建立假设: 无效假设(检验假设,零假设,H0 ): = 0 备择假设 (H1): 0 ( > 0或 < 0 ) 单侧检验: 双侧检验: 2、确定检验水准(显著性水准): 无效假设H0实际上成立,但样本信息不支持H0,统计上拒绝H0的可能性大小的度量(小概率事件的标准)
假设检验的一般步骤 3、选定检验方法和计算检验统计量: 4、确定概率P值: P值:由H0所规定的总体中进行随机抽样,获得等于及大于(和/或等于及小于)现有样本统计量值的概率 5、做出推断结论(统计结论和专业结论): P > :不拒绝H0 ,还不能认为差异有统计学意义… P :拒绝H0,接受H1 ,差异有统计学意义…
第三节 均数的 t 检验、u检验 t检验的应用条件: 样本例数n较小、样本来自正态或近似正态总体,两样本均数比较时还要求相应的两总体方差齐同 u检验的应用条件: 大样本资料,样本例数n较小但总体标准差已知,样本来自对称或正态总体
一、样本均数与总体均数比较的t检验 总体均数: 一般为理论值、标准值或经过大量观察所得的稳定值0 比较的目的: 样本所代表的未知总体均数与已知的总体均数0是否不同。 统计量t的计算公式: = n - 1
P170例9.3:已知一般无肝肾疾患的健康人群尿素氮均值为4.882(mmol/L),16名脂肪肝患者的尿素氮(mmol/L)测定值为5.74,5.75,4.26,6.24,5.36,8.68,6.47,5.24,4.13,11.8,5.57,5.61,4.37,4.59,5.18,6.96。问脂肪肝患者尿素氮测定值的均数是否高于健康人假设检验的步骤:…x=5.997 S=1.92 n=16 t=…=2.32 (单侧检验)0.01<p<0.025
配对资料:同一受试对象处理前后的比较或不同部位测定值比较 同一样品用两种不同方法测试 同对的两个受试对象分别接受不同处理
统计量t的计算公式: =对子数 - 1
P171例9.4:应用某药治疗8例高胆固醇血症患者,观察治疗前后血浆胆固醇变化情况,见表9-1,问该药是否对患者治疗前后血浆胆固醇变化有影响?P171例9.4:应用某药治疗8例高胆固醇血症患者,观察治疗前后血浆胆固醇变化情况,见表9-1,问该药是否对患者治疗前后血浆胆固醇变化有影响?
三、成组设计的两小样本均数比较的t检验 目的:由两个样本均数的差别推断两样本 所代表的总体均数间有无差别。
统计量t的计算公式: = n1+n2 - 2
P172例9.6: 从40-59岁有无肾囊肿的女性中分别随机抽取10与20人,测定他们的尿素氮水平(mmol/L)如下,问两组女性尿素氮水平有无不同?
四、大样本均数比较的 u 检验 1. 大样本均数与已知总体均数比较的u 检验 2. 两个(大)样本均数比较的u 检验
两大样本均数比较的u 检验 目的:由两个样本均数的差别推断两样本所代表的总体均数间有无差别。 统计量u的计算公式:
P172例9.5: 某地随机抽取正常男性264名,测得空腹血中胆固醇的均数为4.404mmol/L,标准差为1.169mmol/L,随机抽取正常女性160名,测得空腹血中胆固醇的均数为4.288mmol/L,标准差为1.106mmol/L,问男女胆固醇浓度有无差别?
假设检验中的两类错误 第Ⅰ类错误和第Ⅱ类错误: 当拒绝H0时,可能拒绝了实际上成立的H0,这类错误称为Ⅰ类错误(“弃真”),其概率大小用α表示。常称之为检验水准 当不拒绝H0时,没有拒绝实际上不成立的H0,这类错误称为Ⅱ类错误(“存伪”),其概率大小用β表示。