440 likes | 607 Views
正态分布. 1. 2. 3. 4. 频率概率概念复习. 正态分布定义和特征. 正态分布的应用. STATA 命令. 内容. 频率和概率概念复习. 关于频率和概率 :. 频率:对于随机事件 A ,在相同的条件下进行了 n 次实验, 事件 A 发生的次数为m,比值m /n 为频率 ,记为 fn(A). 概率 : 描述某随机事件A发生的可能性大小,记为 P(A). 当n 时,频率fn(A) 概率 P(A). 频率和概率概念复习. 扔“硬币”实验.
E N D
1 2 3 4 频率概率概念复习 正态分布定义和特征 正态分布的应用 STATA命令 内容
频率和概率概念复习 • 关于频率和概率: 频率:对于随机事件A,在相同的条件下进行了n次实验, 事件A发生的次数为m,比值m/n为频率 ,记为fn(A) • 概率:描述某随机事件A发生的可能性大小,记为P(A) 当n 时,频率fn(A) 概率 P(A)
频率和概率概念复习 • 扔“硬币”实验 频率具有波动性,但当n越来越大时,频率趋于某个稳定的常数(概率),所以只要观察单位数充分多,可以将频率作为概率的估计值。
通过例子介绍概率密度曲线的意义 例:在某地区7岁正常发育的男孩中随机抽110个人,测量他们的身高,并以身高观察值(cm)为数据,试刻画7岁男孩身高分布。
复习频数分布和频率分布性质 各个组段的频率之和(累计频率)=1
频率密度图(纵坐标为频率/组距) 每个直方条的面积=纵坐标×组距=(频率/组距)×组距=频率 各个直方条的面积之和=各个组段的频率之和=1
频率密度图性质 • 身高<112cm的频率=组段[106,109)和[109,112)的频率之和=[106,112)的直方条面积。 • 112cm身高<118cm的频率=[112,118)的直方条面积
频率密度图性质(n∞) • 现(n110),假定在该地区随机抽了n个7岁男孩并且n∞,则各个组段的频率各自的概率 • 身高为各个组段的概率=各个组段的直方条面积 • 各个组段的面积(概率)之和为1
频率密度图性质(n∞) [115,118)的直方条面积(概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137
频率密度图性质(n∞) 身高在[115,121)的概率为[115,121)的直方条面积=0.409 问题1:能否利用组段的直方条面积计算身高在[115,122)的概率?要采取什么措施才能计算? 问题2:身高在[115,122.5)的概率如何计算?
概率密度曲线 probability density curve 当n∞,直方条面积(频率)各自的概率 然后组距0时,直方条的宽度0,直方条垂直线,各个直方条顶点间的连线构成一条光滑的曲线,即:概率密度曲线,而曲线下(直方条)的总面积始终为1,身高在区间[a,b]的概率=对应曲线段下的面积(直方条面积) 。
正态分布的概率密度 • 正态曲线(normal curve):高峰位于中央,两侧逐渐下降并完全对称,曲线两段永远不与横轴相交的钟型曲线。 • 正态曲线的函数表达式 称为正态分布密度函数:
正态分布的参数 • 如果变量X的概率密度函数服从上述函数,则称该变量服从正态分布。记做 • 总体均数(位置参数) :描述正态分布的集中趋势的位置 • 总体标准差(变异度参数) :描述正态分布离散趋势, 越小,分布越集中,曲线形状越“瘦高”;反之越“矮胖”。 • 正态曲线的形状由 , 两个参数决定
正态分布曲线的特点 • 始终位于横轴上方 • 关于 左右对称,正态高峰位于中央 • 在 处取得该概率密度函数的最大值,在 处有拐点,表现为钟形 • 靠近 处曲线下面积较为集中,两边减少,意味着正态分布变量取值靠近 处的概率较大,两边逐渐减少 • 正态分布的总体偏度系数和峰度系数均为0
正态分布曲线下面积 • 正态分布变量X的取值为(-∞,∞) • 任意两点x1,x2且(x1x2),X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积 特别: ,则称X服从为标准正态分布,记为N(0,1) 问题:设X~N(120,4.52), 求概率P(X=120)?
正态分布曲线的对称性质 • 设X服从 ,则正态曲线在X=处对称,正态曲线(-∞, )处的曲线下面积为0.5, 更一般的情况:概率
正态分布曲线下面积 • 求概率 相当于正态分布曲线段(a,b)下的面积 • 例:求 范围内曲线下面积
标准正态分布N(0,1) • 对任意一个正态分布可以进行标准化变换, U变换 • 变换后的随机变量U服从标准正态分布, 即:U~N(0,1)
标准正态分布的概率计算 例2.18:设X服从标准正态分布,求概率P(-1.83 <X <-0.3)。 解:即求标准正态分布曲线下在(-1.83,-0.30)范围内的面积
标准正态分布的概率计算 如:设X服从标准正态分布,求概率 P(X>0.3) 。 解:标准正态分布关于X=0对称,所以 P(X>0.3)=P(X<-0.3)=
正态分布的概率计算 例2.19 例2.1中已得110名7岁男孩身(121.94.5),现欲估计该地1995年身高界于116.7cm 到119.1cm范围内的7岁男童的概率。 解:由该例的频数图可知, 可以认为7岁男孩身高近似服从正态分布,由于本例样本量较大,不妨假定:
正态分布的概率计算 • 作标准化变换: • X1=116.7 • X2=119.1
正态分布的概率计算 • 7岁男童的身高界于116.7cm 到119.1cm的概率为 问题:同上,但求身高界于116.7cm 到130.0cm的概率。 解:用标准化变换,得到u1=-1.16, u2=1.8
正态分布的概率计算 计算概率为
正态分布应用 • 确定医学参考值范围 • 医学参考值范围---决大多数正常人的某项指标值范围 • ”正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群 • 大多数个体;90%,95%,99%等 • 统计方法 • 百分位数法:任何分布的指标 • 正态分布法:服从正态分布的指标 • 注意:根据研究背景确定单双侧范围
确定医学参考值范围 例2.21 估计某地健康成年女子的血红蛋白的95%医学参考值范围 • 具体步骤如下: 1. 根据研究背景确定研究对象的入选标准和排除标准。这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他指标均正常的对象。 2. 根据研究背景,确定血红蛋白过高或过低均属于不正常(双侧范围)。
确定医学参考值范围 3. 血红蛋白检测的容许误差和研究背景容许误差的范围,确定受检者的样本量。 4. 由于在实际研究中,总体均数和方差均不知道的,需要用样本资料进行估计,所以一般至少在100人以上,这样参数估计的平均误差是资料的离散程度的1/10以下。
确定医学参考值范围 5. 如果受检指标血红蛋白近似服从正态分布,则可以用 确定其95%参考值范围; 6. 如果受检指标血红蛋白呈偏态分布,则可以用百分位数P2.5~P97.5确定95%参考值范围,但样本量要充分大。 7. 样本量充分大是相对于指标的变异程度,指标变异大,要求样本量大;指标变异程度小,要求样本量可以相对小一些。
确定医学参考值范围 本例:成年正常女子200人的血清总蛋白含量(近似正态分布),得到均数 =73.5克/升,标准差S=3.9克/升。 由于样本量很大,可以用样本均数和标准差近似总体均数和标准差,按下式计算:
确定医学参考值范围 • 下限: • 上限: • 即:该地成年正常女子的95%参考值范围为65.9~81.1( g/L)
确定医学参考值范围 例2.22 估计某地110名健康成年男子第一秒肺通气量的95%参考值范围,已知 =4.2L,s=0.7L • 实现步骤如下: 1. 确定入选标准和排除标准 2. 由于第一秒肺通气量过低才是异常,不存在过高不正常,所以只需考虑过低的异常标准(单侧范围)
确定医学参考值范围 • 依据原始资料,考查资料是否近似服从正态分布,本例假定近似服从正态分布,样本量也较大,采用正态分布方法确定95%参考值范围。 本例:95%参考值范围计算如下: • 下限: • 即:健康成年男子第一秒肺通气量的95%参考值范围3.05L
正态分布应用 • 估计频数 例2.20 某地婴儿出生平均体重为3200g,标准差为350g,如出生体重低于2500g为低体重儿,估计当年该地低体重儿所占的比例。 • 求出生体重X<2500的比例 • 进行标准化变换 • P(X<2500)=P(U<-2), • 查标准正态表得φ(-2)=0.023,即:估计当年该地低体重儿所占的比例为2.3%。
正态分布应用 • 质量控制图 • 原理:如果波动仅由个体差异或随机误差所致,则结果应服从正态分布 • 为控制实验误差,以 为警戒线,以 为控制线
STATA命令 • 模拟正态分布 • set memory 20m 设Stata内存为20兆 • set obs 100000 设模拟数据的样本含量为10万 • gen x=invnorm(uniform()) 产生10万个服从标准正态分布的数据(x) • gen y= invnorm(uniform()) 产生10万个服从标准正态分布的数据(x)
STATA命令 • gen z1=x+2*y 产生新的变量z1=x+2y • gen z2=x-2*y 产生新的变量z1=x-2y • summarize x y z1 z2,d 计算x、y、z1、z2的均数,标准差,方差