1.07k likes | 1.23k Views
第四章 理论分布和抽样分布. 第一节 事件、概率和随机变量 第二节 二项式分布 第三节 正态分布 第四节 抽样分布. 第一节 事件、概率和随机变量. 一、事件和事件发生的概率 二、事件间的关系 三、计算事件概率的法则 四、随机变量. 一、事件和事件发生的概率. 事件 ---- 在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件。 随机事件 (random event) ---- 某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件。
E N D
第四章 理论分布和抽样分布 第一节 事件、概率和随机变量 第二节 二项式分布 第三节 正态分布 第四节 抽样分布
第一节 事件、概率和随机变量 一、事件和事件发生的概率 二、事件间的关系 三、计算事件概率的法则 四、随机变量
一、事件和事件发生的概率 事件----在自然界中一种事物,常存在几种可能出现的情况,每一种可能出现的情况称为事件。 随机事件(random event) ----某特定事件只是可能发生的几种事件中的一种,这种事件称为随机事件。 概率(probability) ----每一个事件出现的可能性称为该事件的概率。 必然事件-----对于一类事件来说,在同一组条件的实现之下必然要发生的,称为必然事件;其概率为1。 不可能事件-----对于一类事件来说,在同一组条件的实现之下必然不发生的,称为不可能事件,其概率为0。
事件发生的可能性(概率)是在大量的实验中观察得到的,事件发生的可能性(概率)是在大量的实验中观察得到的, 例如棉田发生盲蝽象为害的情况,并不是所有的棉株都受害,随着观察的次数增多,我们对棉株受害可能性程度大小的把握越准确、越稳定。这里将一个调查结果列于表4.1。 表4.1在相同条件下盲蝽象在某棉田危害程度的调查结果
由表4.1可以看到:调查5株时,有2株受害,受害株的频率为40%,调查25株时受害频率为48%,调查100株时受害频率为33%。可以看出三次调查结果有差异,说明受害频率有波动、不稳定。而当进一步扩大调查的单株数时,发现频率比较稳定了,调查500株到2000株的结果是受害棉株稳定在35%左右。由表4.1可以看到:调查5株时,有2株受害,受害株的频率为40%,调查25株时受害频率为48%,调查100株时受害频率为33%。可以看出三次调查结果有差异,说明受害频率有波动、不稳定。而当进一步扩大调查的单株数时,发现频率比较稳定了,调查500株到2000株的结果是受害棉株稳定在35%左右。 现以n代表调查株数,以a代表受害株数,那么可以计算出受害频率p=a/n。从棉株受害情况调查结果看,频率在n取不同的值时,尽管调查田块是相同的,频率p却不同,只有在n很大时频率才比较稳定一致。因而,调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性。
统计学上用n较大时稳定的p近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为0~1,即0≤P(A)≤1。统计学上用n较大时稳定的p近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以表示。此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为0~1,即0≤P(A)≤1。 小概率原理----若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。
二、事件间的关系 (一) 和事件 (二) 积事件 (三) 互斥事件 (四) 对立事件 (五) 完全事件系 (六) 事件的独立性
(一) 和事件 事件A和B至少有一个发生而构成的新事件称为事件A和B的和事件,记为A+B,读作“或A发生,或B发生”。 例如,有一批种子,包含有能发芽的和不能发芽的。若A为“取到能发芽种子”,B为“取到不能发芽种子”,则A+B为“或者取到能发芽种子或者取到不能发芽种子”。 事件间的和事件可以推广到多个事件:事件A1、A2、…、An至少有一发生而构成的新事件称为事件A1、A2、…、An的和事件,记为A1+A2+…+An=
(二) 积事件 事件A和B同时发生所构成的新事件称为事件A和B的积事件,记作AB,读作“A和B同时发生或相继发生”。 事件间的积事件也可以推广到多个事件:事件A1、A2、…、An同时发生所构成的新事件称为这n个事件的积事件,记作A1A2…An=
(三) 互斥事件 事件A和B不可能同时发生,即AB为不可能事件,记作A·B=V,称事件A和B互斥或互不相容。 例如,有一袋种子,按种皮分黄色和白色。若记A为“取到黄色”,B为“取到白色”,显然A和B不可能同时发生,即一粒种子不可能既为黄色又为白色,说明事件A和B互斥。 这一定义也可以推广到n个事件。事件A1、A2、…、An不可能同时发生所构成的新事件称为这n个事件互斥或互不相容,记作A1·A2…·An=V。
(四) 对立事件 事件A和B不可能同时发生,但必发生其一,即A+B为必然事件(记为A+B=U),AB为不可能事件(记为A·B=V),则称事件B为事件A的对立事件,并记B为 。 例如,上面例子中A为“取到黄色”,B为“取到白色”,A与B不可能同时发生,但是,任意抽取一粒种子,其皮色不是黄色就是白色,即A和B必发生其一,因此,A和B互为对立事件。
积事件AB A B A B 和事件A+B 互斥事件 A B 对立事件
(五) 完全事件系 若事件A1、A2、…、An两两互斥,且每次试验结果必发生其一,则称A1、A2、…、An为完全事件系。 例如,仅有三类花色:黄色、白色和红色,则取一朵花,“取到黄色”、“取到白色”和“取到红色”就构成完全事件系。
(六) 事件的独立性 若事件A发生与否不影响事件B发生的可能性,则称事件A和事件B相互独立。 例如,事件A为“花的颜色为黄色”,事件B为“产量高”,显然如果花的颜色与产量无关,则事件A与事件B相互独立。
三、计算事件概率的法则 (一) 互斥事件的加法 (二) 独立事件的乘法 (三) 对立事件的概率 (四) 完全事件系的概率 (五) 非独立事件的乘法
(一) 互斥事件的加法 假定两互斥事件A和B的概率分别为P(A)和P(B)。则事件A与B的和事件的概率等于事件A的概率与事件B的概率之和,即P(A+B)=P(A)+P(B)。 加法定理对于多个两两互斥的事件也成立:假定A1、A2、…、Ann个事件彼此间均是两两互斥的事件,其概率依次为P(A1),P(A2),…,P(An),则A1,A2到An和事件的概率P(A1+A2+ … +An)等于P(A1),P(A2),…,P(An)之和,即P(A1+A2+ … +An)=P(A1)+P(A2)+ … +P(An)。
例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概率之和。例如,一捆花中红、黄、白花的概率分别为0.2、0.3、0.5,那么我们随机抽取一朵非白色花的概率为0.5(=0.2+0.3),这只是由加法定理得到的两个事件概率之和。
(二) 独立事件的乘法 假定P(A)和P(B)是两个独立事件A与B各自出现的概率,则事件A与B同时出现的概率等于两独立事件出现概率P(A)与P(B)的乘积,即P(AB)=P(A)P(B) 乘法定理对于n个相互独立的事件也成立。假定P(A1),P(A2),…,P(An)是n个相互独立事件各自出现的概率,则该n个事件同时出现的概率P(A1A2…An)等于各自出现概率之乘积,即P(A1A2…An)=P(A1)P(A2)…P(An)。
现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。试求下列两事件的概率:现有4粒种子,其中3粒为黄色、1粒为白色,采用复置抽样。试求下列两事件的概率: (A)第一次抽到黄色、第二次抽到白色; (B)两次都抽到黄色。 由于采用复置抽样(即每一次抽出观察结果后又放回再进行下一次抽样),所以第一次和第二次的抽样结果间是相互独立的。
采用概率的古典定义,可以求出抽到黄色种子的概率为0.75,抽到白色种子的概率为0.25。因此,有采用概率的古典定义,可以求出抽到黄色种子的概率为0.75,抽到白色种子的概率为0.25。因此,有 P(A)=P(第一次抽到黄色种子)P(第二次抽到白色种子) =0.25×0.75=0.1875, P(B)=P(第一次黄色种子)P(第二次黄色种子) =0.75×0.75=0.5625。
(三) 对立事件的概率 若事件A的概率为P(A),那么其对立事件的概率为:
(四) 完全事件系的概率 完全事件系的概率为1。 例如“从10个数字中随机抽得任何一个数字都可以”这样一个事件是完全事件系,其概率为1。
(五) 非独立事件的乘法 如果事件A和B是非独立的,那么事件A与B同时发生的概率为事件A的概率P(A)乘以事件A发生的情况下事件B发生的概率P(B|A),即:P(AB)=P(A)P(B|A)
四、随机变量 随机变量是指随机变数所取的某一个实数值。 例1:抛硬币试验,硬币落地后只有两种可能结果:币值面向上和国徽面向上,用数“1”表示“币值面向上”,用数“0”表示“国徽面向上”。把0,1作为变量y的取值。在讨论试验结果时,就可以简单地把抛硬币试验用取值为0,1的变量来表示。 P(y=1)=0.5,P(y=0)=0.5
例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示“不能发芽种子”,其概率为q。显然 p+q=1, 则 P(y=1)=p,P(y=0)=q=1-p。
例3:用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。例3:用变量y表示水稻产量,若y大于500kg的概率为0.25,大于300kg且等于小于500kg的概率为0.65,等于小于300kg的概率为0.1。 则用变量y的取值范围来表示的试验结果为 P(y≤300)=0.10, P(300<y≤500)=0.65, P(y>500)=0.25。
离散型随机变量----当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。离散型随机变量----当试验只有几个确定的结果,并可一一列出,变量y的取值可用实数表示,且y取某一值时,其概率是确定的,这种类型的变量称为离散型随机变量。 将这种变量的所有可能取值及其对应概率一一列出所形成的分布称为离散型随机变量的概率分布: 概率 也可用函数f(y)表述,称为概率函数。
前面例1、例2中的y就是离散型随机变量,将其可能取值与对应概率一一列出,即为:前面例1、例2中的y就是离散型随机变量,将其可能取值与对应概率一一列出,即为:
连续型随机变量(continuous random variate) ----对于随机变量,若存在非负可积函数f(y)(-∞<y<+∞),对任意a和b(a<b)都有P(a≤y<b)=,则称y为连续型随机变量(continuous random variate),f(y)称为y的概率密度函数(probability density function)或分布密度(distribution density)。 上述例3中的y就是一个连续型随机变量。
第二节 二项式分布 一、二项总体及二项式分布 二、二项式分布的概率计算方法 三、二项式分布的形状和参数 四、多项式分布
一、二项总体及二项式分布 所谓二项总体( binary population ),就是非此即彼的两项构成的总体. 例如:小麦种子发芽和不发芽,大豆子叶色为黄色和青色,调查棉田盲蝽象为害分为受害株和不受害株等等。 通常将二项总体中的“此”事件以变量“1”表示,具概率p;将“彼”事件以变量“0”表示,具概率q。因而二项总体又称为0、1总体,其概率则显然有:p+q=1或q=1-p
如果从二项总体进行n次重复抽样,设出现“此”的次数为y,那么y的取值可能为0、1、2、…、n,共有n+1种可能取值,这n+1种取值各有其概率,因而由变量y及其概率就构成了一个分布,这个分布叫做二项式概率分布,简称二项式分布或二项分布( binomial distribution )。 • 二项总体的抽样试验具有重复性和独立性. • 重复性是指每次试验条件不变,即在每次试验中“此”事件出现的概率皆为p. • 独立性是指任何一次试验中“此”事件的出现与其余各次试验中出现何种结果无关.
二、二项式分布的概率计算方法 例:在由具有一对基因差异的亲本杂交形成的F2代群体中,出现黄色子叶的概率为0.75,出现青色子叶的概率为0.25,这是二项总体的概率分布。如果从这种总体抽取3(n)粒,那么得到1(y)粒是黄子叶的概率是多少呢?
抽取三粒种子(以Y代黄子叶,以G代青子叶),即n=3,有两粒黄子叶种子,即y=2,这时有3种不同组合: GGY,GYG,YGG。出现第一粒,第二粒和第三粒种子是互不影响的,因此这三个事件是独立事件,由乘法法则可得:
由于这三个事件都是相互互斥的,所以出现两粒黄子叶种子(y=2)的概率为这三种概率之和:由于这三个事件都是相互互斥的,所以出现两粒黄子叶种子(y=2)的概率为这三种概率之和: 上述结果也可以表示为:
即复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这一复合事件的可能组合数目则相当于从n(3)个物体中任取其y(2)个物体的组合数。数学上的组合公式为:即复合事件的概率必等于该事件出现的组合数目乘以单个事件的概率;而这一复合事件的可能组合数目则相当于从n(3)个物体中任取其y(2)个物体的组合数。数学上的组合公式为:
二项式中包含两项,这两项的概率为p、q,并且p+q=1,可推知变量y的概率函数为:二项式中包含两项,这两项的概率为p、q,并且p+q=1,可推知变量y的概率函数为: 这一分布律也称贝努里( Bernoulli )分布,并有 累积函数F(y):变量小于等于y的所有可能取值的概率之和 理论次数:对于任意y,理论次数=nP(y)
的泰勒展开式为: 可以看到,上式右边的每一项即为二项分布中变量y取0、1、2、…、n时的概率,又p+q=1,从而 (p+q)n=1
[例4.1] 棉田盲蝽象为害的统计概率乃从调查2000株后获得近似值p=0.35。现受害株事件为A,其概率为p=0.35,未受害株事件为对立事件,其概率q=(1-0.35)=0.65。这一试验是可以重复的。假定做了n次试验,即抽出n株为一个抽样单位,那么,试问出现有y株是受害的,其概率应有多少? 假定以n=1,即抽出一株为一个抽样单位,这里已知P(A)=0.35和P( )=0.65,总体的理论次数分布则以n乘上述概率分布,即np和n(1-p),所以有2000×0.35=700株受害和2000×0.65=1300株未受害。
如调查5株为一个抽样单位,即n=5,则受害株数y=0,1,2,3,4和5的概率可以计算出来,如表4.2。棉株受害数乃一随机变数(y),可以计算变量y相应的概率函数如调查5株为一个抽样单位,即n=5,则受害株数y=0,1,2,3,4和5的概率可以计算出来,如表4.2。棉株受害数乃一随机变数(y),可以计算变量y相应的概率函数 和其累计函数 如果每次抽5个单株,抽n=400次,则理论上我们能够得到y=2的次数应为: 理论次数=400×P(2)=400×0.3364=134.56(次) 图4.1和图4.2给出了概率函数图和累积概率函数图
受害株数(y)受害株数(y) 图4.1棉株受盲蝽象为害的概率分布图 (p=0.35,n=5) 图4.2棉株受盲蝽象为害的累积概率函数F(y)图 (p=0.35,n=5)
[例4.2] 某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少? 按上述二项分布概率函数式计算 7头愈好,3头死去概率: 8头愈好,2头死去概率: 9头愈好,1头死去概率: 10头全部愈好的概率:
若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即
三、二项式分布的形状和参数 受害株数(y) 受害株数( y) 图4.1棉株受盲蝽象为害的概率分布图(p=0.35,n=5) 图4.3为上述棉株受害概率如p=1/2时的概率分布图。从图4.1和4.3可看出,如p=q,二项式分布呈对称形状,如p≠q,则表现偏斜形状。
二项式分布的参数 仍以上述棉株受害为例,抽取5株中受害株数的多少(y)作为统计指标的话,从总体中可以抽取的所有样本均有一个y,这样所有的y构成了一个新总体,该总体也属于二项式总体,其平均数、方差和标准差如下式 从而,上述棉田受害率调查结果,n=5,p=0.35,可求得总体参数为: =5×0.35=1.75株, 株。
四、多项式分布 所谓多项总体,是指将变数资料分为3类或多类的总体。 例如在给某一人群使用一种新药,可能有的疗效好,有的没有疗效,而另有疗效为副作用的,就是三项分布。 多项总体的随机变量的概率分布即为多项式分布( multinomial distribution )。
多项分布的概率计算 设总体中共包含有k项事件,它们的概率分别为p1、p2、p3、…、pk,显然p1+p2+p3+…+pk=1。若从这种总体随机抽取n个个体,那么可能得到这k项的个数分别为y1、y2、y3、…、yk,显然y1+y2+y3+…+yk=n。那么得到这样一个事件的概率为:
[例4.3] 某药对病人有效的概率为1/2,对病人无效的概率为1/3,有副作用的概率为1/6,若随机抽取2个使用该药的病人,那么我们的结果可能包括这样几种事件:2个病人有副作用;一个无效、一个有副作用;两个无效;一个有效、一个有副作用;一个有效、一个无效;两个均有效。这几种事件的概率分别为多少呢?可以使用上述的概率分布公式来计算,如表4.3。