650 likes | 1.03k Views
三 正态分布和抽样分布 ( sampling distributions). 阅读教材:第 5 章、第 6 章. 本章概要. 正态分布 标准正态分布 正态假设的评价( Evaluating the normality assumption) 指数分布、二项分布、泊松分布. 本章概要. ( continued). 抽样分布简介 抽样分布的均值 部分抽样分布( Sampling distribution of the proportion) 有限总体的抽样. 连续型概率分布. 连续性随机变量 区间内的数值 没有空缺点 连续型概率分布 连续型随机变量的分布
E N D
三 正态分布和抽样分布(sampling distributions) 阅读教材:第5章、第6章
本章概要 • 正态分布 • 标准正态分布 • 正态假设的评价(Evaluating the normality assumption) • 指数分布、二项分布、泊松分布
本章概要 (continued) • 抽样分布简介 • 抽样分布的均值 • 部分抽样分布(Sampling distribution of the proportion) • 有限总体的抽样
连续型概率分布 • 连续性随机变量 • 区间内的数值 • 没有空缺点 • 连续型概率分布 • 连续型随机变量的分布 • 最重要的连续型概率分布 • 正态分布
正态分布 • “钟形” • 对称的 • 均值、中位数、众数 是相等的 • 内距为1.33 s • 随机变量的极差为无 穷大 f(X) X 均值 中位数 众数
正态分布在实际中应用非常广泛 • 在社会经济问题中,有许多随机变量的概率分布都服从正态分布。 • 某地区同年龄组儿童的发育特征如身高、体重、肺活量; • 某公司年销售量; • 在同一条件下产品的质量围绕着平均的质量为中心上下摆动; • 特别差和特别好的都是少数,多数是处在中间状态; • 人群中的高个子和低个子都是少数,而中等身材的人居多数等等。
不同参数的正态分布 正态分布有无限多种 由于参数 和各不相同, 我们可以得到各种各样的正态分布
正态分布的概率 其概率为某一区间内曲线下阴影部分的面积 f(X) X d c
该用哪种分布表? 无穷多种正态分布意味着查阅无限多个分布表
解决办法: 累积标准正态分布表 累积标准正态分布表 (部分) .02 Z .00 .01 .5478 .5000 0.0 .5040 .5080 对应阴影区域 .5398 .5438 .5478 0.1 0.2 .5793 .5832 .5871 概率值 Z = 0.12 0.3 .6179 .6217 .6255 只需要一个分布表!!
标准化的例子 标准正态分布 正态分布 对应阴影区域
Example: 标准正态分布 正态分布 对应阴影区域
Example: (continued) 标准正态分布表(部分) .02 Z .00 .01 .5832 .5000 0.0 .5040 .5080 对应阴影区域 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Z = 0.21 0.3 .6179 .6217 .6255
Example: (continued) 标准正态分布表(部分) .02 Z .00 .01 .4168 .3821 -03 .3783 .3745 对应阴影区域 -02 .4207 .4168 .4129 -0.1 .4602 .4562 .4522 Z = -0.21 0.0 .5000 .4960 .4920
PHStat用于正态分布 • PHStat | probability & prob. Distributions | normal … • Example in excel spreadsheet
Example: 标准正态分布 正态分布 对应阴影区域
Example: (continued) 标准正态分布表(部分) .02 Z .00 .01 .6179 .5000 0.0 .5040 .5080 对应阴影区域 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Z = 0.30 0.3 .6179 .6217 .6255
确定某个概率对应的Z值 标准正态分布表(部分) 已知概率 = 0.1217,对应Z值是多少 ? .01 Z .00 0.2 0.0 .5040 .5000 .5080 .6217 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 .6179 .6255 .6217 0.3 对应阴影区域
计算已知概率的X值 标准正态分布 正态分布
正态特性的评估 • 并非所有的连续随型机变量都服从正态分布 • 评价一组数列在多大程度上可以近似看成正态分布是十分重要的
正态特性的评估 (continued) • 图形 • 对于所含个数较少或适中的数据序列,茎叶图和箱线图可使之看起来对称吗? • 对于个数较多的数据序列, 柱状图和多边形图看起来是钟形吗? • 描述性测度的计算 • 均值、中位数、众数是否近似相等? • 内距是否近似等于1.33 s? • 极差是否约等于 6 s?
正态特性的评估 (continued) • 观察数据系列的分布 • 是否有大约2/3 的观测值,位于均值的s邻域内? • 是否有大约 4/5的观测值,位于均值的1.28 s邻域内? • 是否有大约 19/20的观测值,位于均值的2 s邻域内 • 评估正态概率点
指数分布 e.g.: 司机们到达收费桥; 顾客到达自动取款机
指数分布 (continued) • 描述事件之间的时间间隔或距离 • 用于排队论 • 密度函数公式 • 参数 • 指数分布常用来作为各种“寿命”分布的近似。如随机服务系统中的服务时间、某些消耗性产品(电子元件等)的寿命等等。 f(X) = 0.5 = 2.0 X
Example e.g.: 顾客以每小时30人的速度到达超市收款处. 则到达的连续顾客流之间的时间间隔超过5分钟的概率为多少?
PHStat用于指数分布 • PHStat | probability & prob. Distributions | exponential • Example in excel spreadsheet
二项分布 • 试验包含了n个相同的试验。 • 每一次试验只有两个可能的结果: “成功”或“失败”。 • 出现“成功”的概率对每一次试验是相同的,“失败”的概率q也不变。 • 试验“成功”或“失败”可以计数,即试验结果对应于一个离散型随机变量。
二项分布例子 • 一些典型的服从二项分布的随机变量的例子: • 在市场调查中考虑产品的喜好,在调查的样本中回答喜欢人数服从的概率分布通常均为二项分布。 • 如社会学家感兴趣的是农民脱贫的比例。 • 对酒的制造商来说,感兴趣的是饮酒者中喜欢他们的品牌的比例。 • 保险推销员随机选择若干家庭进行走访,如果该户购买了保险单则为成功,没有购买则为失败。等等
泊松分布 • 泊松分布常用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的个数的分布。 • 一些典型的服从泊松分布的随机变量的例子: • ①在某一公司中每月观察到的事故的次数; • ②单位时间内到达某一服务柜台(服务站、诊所、超级市场的结账柜台、电话总机等)请求服务的顾客人数; • ③保险公司每天收到的死亡声明的个数; • ④某种仪器每月出现故障的次数。
为什么要学习抽样分布 • 样本统计量是用于估计总体参数的 • e.g.: 估计总体均值 • Problems: 不同的样本会得到不同的估计值 • 大样本估计值较为准确;但成本较高 • 估计值的准确性有多高? • 解决方法:以抽样分布为理论基础
抽样分布 • 样本统计量的理论概率分布 • 样本统计量是一个随机变量 • 样本均值、样本比例 • 从所有可能容量相同的样本中得出的结果
The Sampling Problem of EAI. 电子联合公司的抽样问题 实际应用 电子联合公司的人力资源部要拟定一份公司2500名经理的简介,需要介绍经理们的平均年薪和已完成公司培训计划的经理的比例。 我们所关心的问题是如何从经理 样本中而不是从所有2500名经理 总体中得到我们所需要的信息。
Statistical Inference统计推断 • 统计推断的目的是要从样本所包含的信息推断出总体的信息 • 总体(population)是研究中所有感兴趣个体的集合 • 样本(sample)是总体的一个子集 • 样本结果只是提供了总体特征价值的一个估计 • 参数(parameter)是总体的一个数量特征 • 应用合理的抽样方法样本结果能够提供总体特征的一个很好的估计
Simple Random Sampling简单随机抽样 • 有限总体(Finite Population) • 从容量为N的有限总体总进行抽样,如果容量为n的每个可能样本被抽到的可能性相等,称容量为n的样本为简单随机样本. • 在抽下一个元素前将抽到的元素放回去,这种形式的抽样称为放回抽样(Sampling with Replacement). • 在抽下一个元素前将抽到的元素不放回去抽样称为不放回抽样. • 计算机产生的随机数是常用的自动取样过程
Simple Random Sampling简单随机抽样 • 无限总体(Infinite Population) • 无限总体的简单随机抽样满足条件: • 每个个体都来自同一个总体. • 每个个体的抽取相互独立. • 如果所研究的总体是一正在进行的过程,统计总体的每个个体不可能,则通常认为总体是无限的. • 对于无限总体不能进行标号,抽样过程不能用随机数.
个体、观测与总体 (1)个体(Elementary unit): • 某个被测量的对象(如:一个灯泡) • (2)抽样框(Frame): 全部个体的名单(list) • (3)观测(Observation): • 某个个体在测量变量上的取值 • (如:一个灯泡的寿命) • (4)总体(Population):所有观测的集合 • 总体可以用一个随机变量来表示。 • 例如,X是一个正态总体:
样本与样本容量 • 可以从抽样框中抽取一部分个体进行观测统计,再根据这部分个体的观测信息推断总体的性质。 • (1)一个样本(Sample ): • 注意:由于 Xi 是从总体中随机抽取的,所以 X1, X2 , …, Xn是 n 个随机变量。 • (2)样本容量(Sample Size) :n • 大样本:n 30 • 小样本:n <30 • (3)样本值:一次实际抽取( x1, x2 , …, xn)
简单随机样本 • (1)代表性:每一个随机变量Xi与总体同分布; • (2)独立性:样本抽取是独立、随机进行的。 • 例:9个白球,1个黑球。抽出两个球:(X1, X2) • 放回抽样: • 不放回抽样: • 如果总体单位数无限,抽取有限个后不会影响总体的分布,则放回抽样与不放回抽样没有什么区别; • 实际应用中,如果总体很大,而样本容量相对较小时,比如不超过总体的5%,即可认为总体为无限的。
对抽样分布的进一步研究 • 假设有一个总体… • 总体个数N=4 • 随机变量, X,代表每个人的年龄 • X值: 18, 20,22, 24 以年为单位 C B D A
对抽样分布的进一步研究 (continued) 总体分布的测度 P(X) .3 .2 .1 0 X A B C D (18) (20) (22) (24) 等概率分布(Uniform Distribution)
所有可能的样本的样本容量 n=2 对抽样分布的进一步研究 (continued) 16 个样本均值 有放回抽样抽取的16个可能的样本
所有样本均值的抽样分布 对抽样分布的进一步研究 (continued) 样本均值分布 16 样本均值 P(X) .3 .2 .1 _ 0 X 18 19 20 21 22 23 24
抽样分布的测度 对抽样分布的进一步研究 (continued)
总体分布及其抽样分布的比较 总体 N = 4 样本均值分布 n = 2 P(X) P(X) .3 .3 .2 .2 .1 .1 _ 0 0 X AB C D (18)(20)(22)(24) 18 19 20 21 22 23 24 X
测度工具 • I.E. 是无偏性估计量 • 抽样分布的标准误 (标准差) 比其它无偏估计量的标准误小 • 对于放回抽样: • 当n增加时,减少
无偏性:估计量抽样分布的数学期望等于被估计的总体参数 P(X) Unbiased Biased
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效 P(X) 中位数的抽样分布 均值的抽样分布
大样本容量的影响 大样本容量 P(X) 小样本容量
Sampling Distribution of的抽样分布 • 的抽样分布是样本均值所有可能取值的概率分布 总体均值=? 总体中抽取样本 用样本均值推断 总体均值 计算样本均值 E (x ) = 这里 = 总体均值