330 likes | 406 Views
参数估计基础. 赵耐青 复旦大学卫生统计教研室. --- 抽样分布. 1. 2. 3. 抽样误差. 抽样分布. STATA 命令. 内容. 随机抽样的样本是随机的. 对于任何一个随机试验,当完成随机试验后的随机试验结果是确切的,根本谈不上随机,所以随机都是指随机试验前而言的。 在随机抽样前,抽样者是无法知道随机抽样的结果,当然也无法知道抽到的这个样本的均数。 任何两个抽样者独立地分别在同一总体进行随机抽取一个样本,样本量相同,所抽到的这两个样本的样本均数一般是不同的。 所以,对于随机抽样前而言,随机抽样的样本均数是随机的。. 抽样误差.
E N D
参数估计基础 赵耐青 复旦大学卫生统计教研室 ---抽样分布
1 2 3 抽样误差 抽样分布 STATA命令 内容
随机抽样的样本是随机的 • 对于任何一个随机试验,当完成随机试验后的随机试验结果是确切的,根本谈不上随机,所以随机都是指随机试验前而言的。 • 在随机抽样前,抽样者是无法知道随机抽样的结果,当然也无法知道抽到的这个样本的均数。 • 任何两个抽样者独立地分别在同一总体进行随机抽取一个样本,样本量相同,所抽到的这两个样本的样本均数一般是不同的。 • 所以,对于随机抽样前而言,随机抽样的样本均数是随机的。
抽样误差 • 抽样误差Sampling error • 对于随机抽样而言,总体参数的样本统计量估计值与总体参数间的差异称为抽样误差 • 来源: • 个体变异 • 随机抽样 • 表现 • 总体参数的样本统计量估计值与其总体参数间的差异 • 对于总体参数估计,不同随机抽样的样本统计量之间的差异
抽样误差 • 从总体均数 为72.5,标准差 为6.3cm的正态分布总体中随机抽样,样本量n=9,25。 • 样本均数的抽样误差=样本均数-总体均数 n=9,25 …….
抽样误差 • 结果: • 各样本均数不一定等于总体均数 • 样本均数间存在差异 • 样本均数的分布规律:围绕总体均数上下波动 • 样本均数的变异:由样本均数的标准差描述。
抽样分布 • 样本均数的规律性 • 随机的 • 在概率意义下是有规律的---抽样分布 • 通过大量重复抽样,借助频数表描述 • 样本均数的变异规律(抽样分布)与个体观察值变异规律有关 • 即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律
正态总体样本均数的分布 • 已知某地成人男子的脉搏平均数为 ,标准差为 ,将其视为一个总体。 • 以上述背景,用计算机随机模拟这个总体,并且模拟从该总体中进行随机抽样 • 样本含量为n • 每次抽取10000个样本并计算各自的样本均数 • 以10000个样本均数作为一个新的样本制作频数图
正态总体样本均数的分布 • 从正态分布的总体 中随机抽取样本含量为n的样本X1,X2,…,Xn, • 可以证明:样本均数 • 服从正态分布,总体均数为 ; • 样本均数的总体标准差
正态总体样本均数的分布 • 样本均数的标准差 ,称为样本均数的标准误(standard error of mean ,SE),简称均数标准误 • 它反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。 • 误差大小 ,实质是要估计 的分布中的离散程度特征
正态总体样本均数的分布 正态总体样本均数的分布 正态总体样本均数的分布 正态总体样本均数的分布 正态总体样本均数的分布 正态总体样本均数的分布 正态总体样本均数的分布 正态总体样本均数的分布 • 由于实际 往往未知,需要用样本 来估计 ,样本均数标准误的估计式为 • 注意区别: • 证明:样本均数的期望值和标准差也为
非正态总体样本均数的分布 • 从总体均数为1的指数分布中抽样,样本大小分别为4,9,100。每次抽10000个样本制作频数分布图
抽样1 样本含量n=4 的平均数 =1.0133 的标准差 =0.5031 的中位数 =0. 9298
抽样2 样本含量n=9 的平均数 =0.9959 的标准差 =0. 3332 的中位数 =0.9574
抽样3 样本含量n=100 的平均数 =0.9993 的标准差 =0.1001 的中位数 =0.9958
非正态总体样本均数的分布 • 从非正态指数分布总体中随机抽样所得样本均数 : • 在样本含量较小时呈偏态(非指数型) • 样本含量较大时接近正态分布 • 均数 始终在总体均数 附近 • 均数 的标准差
中心极限定理及其应用 • 样本均数 总体标准差是个体资料X的总体标准差的 ;即理论标准误 • 理论标准误的样本估计值为 • 样本均数 与 个体资料X的集中位置相同,即样本均数 的总体均数与 个体资料X的总体均数 相同
中心极限定理及其应用 • 若个体资料X服从正态总体 ,则样本均数 也服从正态分布 ; • 个体资料X服从偏态分布,当样本量n较大时,样本均数 近似服从正态分布
t分布 • ,标准正态分布与t统计量 • 实际研究中未知,用样本的标准差S作为的一个近似值(估计值)代替,得到变换后的统计量并记为
t分布 • 如在正态总体N(168.18,62)中随机抽样,样本量分别取n =5,n =100,均抽10000个样本,分别计算t值和U值并作相应t的频数图
t分布 样本含量n=100 样本含量n=5 t统计量的频数图
t分布 • 结果 • 小样本时,t统计量和U统计量的分布有明显差别 • 大样本时,t统计量和U统计量的分布非常接近。 • 频率密度图 • 当样本量较大时, t统计量的频率密度图与标准正态分布曲线非常接近 • 样本含量较小时,t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大
t分布 • 英国统计学家W. S. Gosset(1908)设 并给出了统计量t的分布规律,称统计量t的分布规律为t分布,自由度为v,记为t(v)分布。 • 每个自由度v对应一个分布,因此t分布是一簇分布 • t分布仅与总体均数有关,与总体标准差无关
v=∞ v=5 v=1 t分布 • 三条t分布密度曲线
t分布的图形特征 • 分布特征 • t分布曲线是单峰的 • 关于t = 0对称 • 自由度越大,t值越小 • t分布与正态分布的关系 • 自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积 • 当自由度 时,t分布逼近于标准正态分布。
t分布的界值 • 给定自由度v,t分布曲线的双侧尾部面积为时对应的t值,记为并称 为t的双侧界值 • 单侧界值 :一侧尾部面积为时对应的t值 • 对称性 :单侧曲线下面积=2双侧曲线下面积 • 同样的尾部面积,t分布的界值要大于标准正态分布的界值
t分布的界值 t分布界值示意图,表示阴影的面积
总体均数的区间估计 总体均数的区间估计 总体均数的区间估计 总体均数的区间估计 总体均数的区间估计 总体均数的区间估计 总体均数的区间估计 总体均数的区间估计 • 假定资料 近似服从正态分布 。 • 对于随机抽样而言,计算统计量 • 因此 • 基于随机抽样而言和 成立的概率为0.95前提下 • 总体均数的区间估计 • 这个区间称为总体均数的95%可信区间