130 likes | 213 Views
第 21 章:置信区间. 漆梦瑶 21821004. 统计推断. 统计推断:指的是根据样本数据对总体得出结论。 参数:用来描述总体的数值(比例 p 或者平均数 μ )叫作参数。 统计推断的基本步骤:用样本统计量来估计总体参数。 因为我们没有总体的数据,所以推断统计的结论并非完全正确。样本结果通常不会和总体的真实结果一模一样。这种误差范围就是置信区间。. 估计总体比例 P. —— 作为总体参数 P 的估计值。读作 p-hat 的表现如何? 需要取许多个样本, 的值会随样本而变,继而可以得到 的分布形态。
E N D
第21章:置信区间 漆梦瑶 21821004
统计推断 统计推断:指的是根据样本数据对总体得出结论。 参数:用来描述总体的数值(比例p或者平均数μ )叫作参数。 统计推断的基本步骤:用样本统计量来估计总体参数。 因为我们没有总体的数据,所以推断统计的结论并非完全正确。样本结果通常不会和总体的真实结果一模一样。这种误差范围就是置信区间。
估计总体比例P • —— 作为总体参数P的估计值。读作p-hat • 的表现如何? • 需要取许多个样本, 的值会随样本而变,继而可以得到 的分布形态。 • 样本统计量的抽样分布:是指从同一总体中抽出的同样大小的所有可能样本,其统计量之值的分布。
从一个成功比例为p的很大的总体中抽取一个大小为n的简单随机样本,用表示成功的样本统计量:从一个成功比例为p的很大的总体中抽取一个大小为n的简单随机样本,用表示成功的样本统计量: • 当样本够大时, • 。 • 抽样分布的平均值和P相等。 • 抽样分布的标准差是:
95%的置信度 对于任意p来说,一般事实如下: 当总体参数的值为p时,有95%的样本统计量的值往左右各延伸两个标准差的区间内。 区间--- P值是不可知的,但是当我们取的样本很大时,统计量的值几乎总是很接近参数p的值。 --> 所以可以根据样本数据算出区间。 样本统计量的95%置信区间: 简单来说,我们有95%的把握认为这个真实比例在置信区间内。95%置信区间 是根据样本数据计算出来的一个区间,保证在所有样本中,右95%的样本统计量会包含在该区间之中。
置信区间的完整描述 一个参数的C置信区间(level C Confidence interval)包含两个部分: 一个根据数据计算出来的区间 置信度C(Confidence level C)是在多次重复抽样的情况下,区间包含参数真实值的概率。 反复抽样的结果会不同,而我们只能够确认95%的样本会产生正确的结果。
从问题的背后进行探讨 • 从25个简单随机样本的得到的25个95%置信区间,分别被标示在正态曲线下方。箭头线段上的黑点代表 的值,位于区间的正中央,点两边的箭头一直延伸到区间的两端。 • 长期以来,所有区间中有95%会涵盖真实的p值,有5%则不包含真实的p值 • 此外 • 我们的区间只是近似的95%置信区间,而不是确切的95%置信区间。 • 原因: • a).样本比例的抽样分布不是百分之百的正态分布。 • b).值的标准差也不完全正确,因为我们在公式中用 • 随着样本量n的增加,这个弊端会减小,所以公式只适用于较大的样本。
99%的置信度 • 对于任意在0~1之间的概率C,都存在一个数字z*,使得任何正态分布在平均数两侧z*个标准差范围内的概率是C。 • z*被称为正态分布的“临界值” (criticalvalue) 正态分布的“临界值”
99%的置信度 • 对于任意在0~1之间的概率C,都存在一个数字z*,使得任何正态分布在平均数两侧z*个标准差范围内的概率是C。 • z*被称为正态分布的“临界值” (criticalvalue) 总体比例的置信区间: z*是对应置信水平C的临界值 当置信度为95%时,z*为2 当置信度为99%时,z*为2.58 较高的置信度不是免费的 代价就是较宽的置信区间
估计总体平均数μ 估算 样本平均数: 总体平均数: μ (读作x拔) 的抽样分布以μ作为平均数。的标准差取决于总体的标准差(记为σ) • 样本平均值的抽样分布 • 。 • 抽样分布的平均值和μ相等。 • 抽样分布的标准差为 样本量n和标准差σ 由于σ未知,当n很大时,样本标准差s接近于σ
只要我们从任何总体中随机抽取越来越多的样本,这些样本观察值的平均数分布就会趋近于正态分布。只要我们从任何总体中随机抽取越来越多的样本,这些样本观察值的平均数分布就会趋近于正态分布。
总体平均数的置信区间: 从一个平均数为μ的大型总体中抽出一个样本量为n的简单随机样本,这个样本的平均数为。当n足够大时, μ的近似置信度C的置信区间就是上面的式子。 通常情况下,样本量n15 足够大 对于明显偏斜的分布,样本量n40 足够大
总结 • 置信区间:是指1).一个根据数据计算出来的区间 • 2).置信度C 是在多次重复抽样的情况下,区间包含参数真实值的概率。 • 总体比例p的置信区间: 公式只适用于样本量n较大的情况下 z*是对应置信水平C的临界值 当置信度为95%时,z*为2 当置信度为99%时,z*为2.58 • 总体平均数μ的置信区间: