1 / 44

正态分布

正态分布. 1. 2. 3. 4. 频率概率概念复习. 正态分布定义和特征. 正态分布的应用. STATA 命令. 内容. 频率和概率概念复习. 关于频率和概率 :. 频率:对于随机事件 A ,在相同的条件下进行了 n 次实验, 事件 A 发生的次数为m,比值m /n 为频率 ,记为 fn(A). 概率 : 描述某随机事件A发生的可能性大小,记为 P(A). 当n  时,频率fn(A)  概率 P(A). 频率和概率概念复习. 扔“硬币”实验.

kai-clayton
Download Presentation

正态分布

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 正态分布

  2. 1 2 3 4 频率概率概念复习 正态分布定义和特征 正态分布的应用 STATA命令 内容

  3. 频率和概率概念复习 • 关于频率和概率: 频率:对于随机事件A,在相同的条件下进行了n次实验, 事件A发生的次数为m,比值m/n为频率 ,记为fn(A) • 概率:描述某随机事件A发生的可能性大小,记为P(A) 当n 时,频率fn(A) 概率 P(A)

  4. 频率和概率概念复习 • 扔“硬币”实验 频率具有波动性,但当n越来越大时,频率趋于某个稳定的常数(概率),所以只要观察单位数充分多,可以将频率作为概率的估计值。

  5. 通过例子介绍概率密度曲线的意义 例:在某地区7岁正常发育的男孩中随机抽110个人,测量他们的身高,并以身高观察值(cm)为数据,试刻画7岁男孩身高分布。

  6. 复习频数分布和频率分布性质 各个组段的频率之和(累计频率)=1

  7. 频率密度图(纵坐标为频率/组距) 每个直方条的面积=纵坐标×组距=(频率/组距)×组距=频率 各个直方条的面积之和=各个组段的频率之和=1

  8. 频率密度图性质 • 身高<112cm的频率=组段[106,109)和[109,112)的频率之和=[106,112)的直方条面积。 • 112cm身高<118cm的频率=[112,118)的直方条面积

  9. 频率密度图性质(n∞) • 现(n110),假定在该地区随机抽了n个7岁男孩并且n∞,则各个组段的频率各自的概率 • 身高为各个组段的概率=各个组段的直方条面积 • 各个组段的面积(概率)之和为1

  10. 频率密度图性质(n∞) [115,118)的直方条面积(概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137

  11. 频率密度图性质(n∞) 身高在[115,121)的概率为[115,121)的直方条面积=0.409 问题1:能否利用组段的直方条面积计算身高在[115,122)的概率?要采取什么措施才能计算? 问题2:身高在[115,122.5)的概率如何计算?

  12. 概率密度曲线 probability density curve 当n∞,直方条面积(频率)各自的概率 然后组距0时,直方条的宽度0,直方条垂直线,各个直方条顶点间的连线构成一条光滑的曲线,即:概率密度曲线,而曲线下(直方条)的总面积始终为1,身高在区间[a,b]的概率=对应曲线段下的面积(直方条面积) 。

  13. 正态分布的概率密度 • 正态曲线(normal curve):高峰位于中央,两侧逐渐下降并完全对称,曲线两段永远不与横轴相交的钟型曲线。 • 正态曲线的函数表达式 称为正态分布密度函数:

  14. 正态分布的参数 • 如果变量X的概率密度函数服从上述函数,则称该变量服从正态分布。记做 • 总体均数(位置参数) :描述正态分布的集中趋势的位置 • 总体标准差(变异度参数) :描述正态分布离散趋势, 越小,分布越集中,曲线形状越“瘦高”;反之越“矮胖”。 • 正态曲线的形状由 , 两个参数决定

  15. 不同参数的正态分布曲线

  16. 不同参数的正态分布曲线

  17. 正态分布曲线的特点 • 始终位于横轴上方 • 关于 左右对称,正态高峰位于中央 • 在 处取得该概率密度函数的最大值,在 处有拐点,表现为钟形 • 靠近 处曲线下面积较为集中,两边减少,意味着正态分布变量取值靠近 处的概率较大,两边逐渐减少 • 正态分布的总体偏度系数和峰度系数均为0

  18. 正态分布曲线下面积 • 正态分布变量X的取值为(-∞,∞) • 任意两点x1,x2且(x1x2),X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积 特别:   ,则称X服从为标准正态分布,记为N(0,1) 问题:设X~N(120,4.52), 求概率P(X=120)?

  19. 正态分布曲线的对称性质 • 设X服从 ,则正态曲线在X=处对称,正态曲线(-∞, )处的曲线下面积为0.5, 更一般的情况:概率

  20. 正态分布曲线下面积 • 求概率      相当于正态分布曲线段(a,b)下的面积 • 例:求 范围内曲线下面积

  21. 正态分布曲线下的特殊位置的面积

  22. 标准正态分布N(0,1) • 对任意一个正态分布可以进行标准化变换, U变换 • 变换后的随机变量U服从标准正态分布, 即:U~N(0,1)

  23. 标准正态分布曲线下面积 表、图

  24. 正态分布的特色点的概率

  25. 标准正态分布的概率计算 例2.18:设X服从标准正态分布,求概率P(-1.83 <X <-0.3)。 解:即求标准正态分布曲线下在(-1.83,-0.30)范围内的面积

  26. 标准正态分布的概率计算 如:设X服从标准正态分布,求概率 P(X>0.3) 。 解:标准正态分布关于X=0对称,所以 P(X>0.3)=P(X<-0.3)=

  27. 正态分布的概率计算 例2.19 例2.1中已得110名7岁男孩身(121.94.5),现欲估计该地1995年身高界于116.7cm 到119.1cm范围内的7岁男童的概率。 解:由该例的频数图可知, 可以认为7岁男孩身高近似服从正态分布,由于本例样本量较大,不妨假定:

  28. 正态分布的概率计算 • 作标准化变换: • X1=116.7 • X2=119.1

  29. 正态分布的概率计算 • 7岁男童的身高界于116.7cm 到119.1cm的概率为 问题:同上,但求身高界于116.7cm 到130.0cm的概率。 解:用标准化变换,得到u1=-1.16, u2=1.8

  30. 正态分布的概率计算 计算概率为

  31. 正态分布应用 • 确定医学参考值范围 • 医学参考值范围---决大多数正常人的某项指标值范围 • ”正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群 • 大多数个体;90%,95%,99%等 • 统计方法 • 百分位数法:任何分布的指标 • 正态分布法:服从正态分布的指标 • 注意:根据研究背景确定单双侧范围

  32. 确定医学参考值范围 例2.21 估计某地健康成年女子的血红蛋白的95%医学参考值范围 • 具体步骤如下: 1. 根据研究背景确定研究对象的入选标准和排除标准。这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他指标均正常的对象。 2. 根据研究背景,确定血红蛋白过高或过低均属于不正常(双侧范围)。

  33. 确定医学参考值范围 3. 血红蛋白检测的容许误差和研究背景容许误差的范围,确定受检者的样本量。 4. 由于在实际研究中,总体均数和方差均不知道的,需要用样本资料进行估计,所以一般至少在100人以上,这样参数估计的平均误差是资料的离散程度的1/10以下。

  34. 确定医学参考值范围 5. 如果受检指标血红蛋白近似服从正态分布,则可以用 确定其95%参考值范围; 6. 如果受检指标血红蛋白呈偏态分布,则可以用百分位数P2.5~P97.5确定95%参考值范围,但样本量要充分大。 7. 样本量充分大是相对于指标的变异程度,指标变异大,要求样本量大;指标变异程度小,要求样本量可以相对小一些。

  35. 确定医学参考值范围 本例:成年正常女子200人的血清总蛋白含量(近似正态分布),得到均数 =73.5克/升,标准差S=3.9克/升。 由于样本量很大,可以用样本均数和标准差近似总体均数和标准差,按下式计算:

  36. 确定医学参考值范围 • 下限: • 上限: • 即:该地成年正常女子的95%参考值范围为65.9~81.1( g/L)

  37. 确定医学参考值范围 例2.22 估计某地110名健康成年男子第一秒肺通气量的95%参考值范围,已知 =4.2L,s=0.7L • 实现步骤如下: 1. 确定入选标准和排除标准 2. 由于第一秒肺通气量过低才是异常,不存在过高不正常,所以只需考虑过低的异常标准(单侧范围)

  38. 确定医学参考值范围 • 依据原始资料,考查资料是否近似服从正态分布,本例假定近似服从正态分布,样本量也较大,采用正态分布方法确定95%参考值范围。 本例:95%参考值范围计算如下: • 下限: • 即:健康成年男子第一秒肺通气量的95%参考值范围3.05L

  39. 确定医学参考值范围小结

  40. 正态分布应用 • 估计频数 例2.20 某地婴儿出生平均体重为3200g,标准差为350g,如出生体重低于2500g为低体重儿,估计当年该地低体重儿所占的比例。 • 求出生体重X<2500的比例  • 进行标准化变换 • P(X<2500)=P(U<-2), • 查标准正态表得φ(-2)=0.023,即:估计当年该地低体重儿所占的比例为2.3%。

  41. 正态分布应用 • 质量控制图 • 原理:如果波动仅由个体差异或随机误差所致,则结果应服从正态分布 • 为控制实验误差,以 为警戒线,以 为控制线

  42. STATA命令 • 模拟正态分布 • set memory 20m 设Stata内存为20兆 • set obs 100000 设模拟数据的样本含量为10万 • gen x=invnorm(uniform()) 产生10万个服从标准正态分布的数据(x) • gen y= invnorm(uniform()) 产生10万个服从标准正态分布的数据(x)

  43. STATA命令 • gen z1=x+2*y 产生新的变量z1=x+2y • gen z2=x-2*y 产生新的变量z1=x-2y • summarize x y z1 z2,d 计算x、y、z1、z2的均数,标准差,方差

  44. Thank You !

More Related