1 / 13

第 21 章:置信区间

第 21 章:置信区间. 漆梦瑶 21821004. 统计推断. 统计推断:指的是根据样本数据对总体得出结论。 参数:用来描述总体的数值(比例 p 或者平均数 μ )叫作参数。 统计推断的基本步骤:用样本统计量来估计总体参数。 因为我们没有总体的数据,所以推断统计的结论并非完全正确。样本结果通常不会和总体的真实结果一模一样。这种误差范围就是置信区间。. 估计总体比例 P. —— 作为总体参数 P 的估计值。读作 p-hat 的表现如何? 需要取许多个样本, 的值会随样本而变,继而可以得到 的分布形态。

fielding
Download Presentation

第 21 章:置信区间

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第21章:置信区间 漆梦瑶 21821004

  2. 统计推断 统计推断:指的是根据样本数据对总体得出结论。 参数:用来描述总体的数值(比例p或者平均数μ )叫作参数。 统计推断的基本步骤:用样本统计量来估计总体参数。 因为我们没有总体的数据,所以推断统计的结论并非完全正确。样本结果通常不会和总体的真实结果一模一样。这种误差范围就是置信区间。

  3. 估计总体比例P • —— 作为总体参数P的估计值。读作p-hat • 的表现如何? • 需要取许多个样本, 的值会随样本而变,继而可以得到 的分布形态。 • 样本统计量的抽样分布:是指从同一总体中抽出的同样大小的所有可能样本,其统计量之值的分布。

  4. 从一个成功比例为p的很大的总体中抽取一个大小为n的简单随机样本,用表示成功的样本统计量:从一个成功比例为p的很大的总体中抽取一个大小为n的简单随机样本,用表示成功的样本统计量: • 当样本够大时, • 。 • 抽样分布的平均值和P相等。 • 抽样分布的标准差是:

  5. 95%的置信度 对于任意p来说,一般事实如下: 当总体参数的值为p时,有95%的样本统计量的值往左右各延伸两个标准差的区间内。 区间--- P值是不可知的,但是当我们取的样本很大时,统计量的值几乎总是很接近参数p的值。 --> 所以可以根据样本数据算出区间。 样本统计量的95%置信区间: 简单来说,我们有95%的把握认为这个真实比例在置信区间内。95%置信区间 是根据样本数据计算出来的一个区间,保证在所有样本中,右95%的样本统计量会包含在该区间之中。

  6. 置信区间的完整描述 一个参数的C置信区间(level C Confidence interval)包含两个部分: 一个根据数据计算出来的区间 置信度C(Confidence level C)是在多次重复抽样的情况下,区间包含参数真实值的概率。 反复抽样的结果会不同,而我们只能够确认95%的样本会产生正确的结果。

  7. 从问题的背后进行探讨 • 从25个简单随机样本的得到的25个95%置信区间,分别被标示在正态曲线下方。箭头线段上的黑点代表 的值,位于区间的正中央,点两边的箭头一直延伸到区间的两端。 • 长期以来,所有区间中有95%会涵盖真实的p值,有5%则不包含真实的p值 • 此外 • 我们的区间只是近似的95%置信区间,而不是确切的95%置信区间。 • 原因: • a).样本比例的抽样分布不是百分之百的正态分布。 • b).值的标准差也不完全正确,因为我们在公式中用 • 随着样本量n的增加,这个弊端会减小,所以公式只适用于较大的样本。

  8. 99%的置信度 • 对于任意在0~1之间的概率C,都存在一个数字z*,使得任何正态分布在平均数两侧z*个标准差范围内的概率是C。 • z*被称为正态分布的“临界值” (criticalvalue) 正态分布的“临界值”

  9. 99%的置信度 • 对于任意在0~1之间的概率C,都存在一个数字z*,使得任何正态分布在平均数两侧z*个标准差范围内的概率是C。 • z*被称为正态分布的“临界值” (criticalvalue) 总体比例的置信区间: z*是对应置信水平C的临界值 当置信度为95%时,z*为2 当置信度为99%时,z*为2.58 较高的置信度不是免费的 代价就是较宽的置信区间

  10. 估计总体平均数μ 估算 样本平均数: 总体平均数: μ (读作x拔) 的抽样分布以μ作为平均数。的标准差取决于总体的标准差(记为σ) • 样本平均值的抽样分布 • 。 • 抽样分布的平均值和μ相等。 • 抽样分布的标准差为 样本量n和标准差σ 由于σ未知,当n很大时,样本标准差s接近于σ

  11. 只要我们从任何总体中随机抽取越来越多的样本,这些样本观察值的平均数分布就会趋近于正态分布。只要我们从任何总体中随机抽取越来越多的样本,这些样本观察值的平均数分布就会趋近于正态分布。

  12. 总体平均数的置信区间: 从一个平均数为μ的大型总体中抽出一个样本量为n的简单随机样本,这个样本的平均数为。当n足够大时, μ的近似置信度C的置信区间就是上面的式子。 通常情况下,样本量n15 足够大 对于明显偏斜的分布,样本量n40 足够大

  13. 总结 • 置信区间:是指1).一个根据数据计算出来的区间 • 2).置信度C 是在多次重复抽样的情况下,区间包含参数真实值的概率。 • 总体比例p的置信区间: 公式只适用于样本量n较大的情况下 z*是对应置信水平C的临界值 当置信度为95%时,z*为2 当置信度为99%时,z*为2.58 • 总体平均数μ的置信区间:

More Related