890 likes | 1.16k Views
统计学. 统 计 学 ( 第三版 ). 2008. 作者 贾俊平. 统计名言. 数学定律不能百分之百确切地用在 现实生活里;能百分之百确切地用 数学定律描述的,就不是现实生活 —— Alber Einstein. 第 4 章 概率分布. 4.1 度量事件发生的可能性 3.2 随机变量概率分布 3.3 由正态分布导出的几 个重要 分布 3.4 样本统计量的概率分布. 学习目标. 度量事件发生的可能性 — 概率 离散型概率分布 二项分布,泊松分布,超几何分布 连续型概率分布 正态分布 由正态分布导出的几个重要分布
E N D
统计学 统 计学(第三版) 2008 作者 贾俊平
统计名言 • 数学定律不能百分之百确切地用在 • 现实生活里;能百分之百确切地用 • 数学定律描述的,就不是现实生活 • ——Alber Einstein
第 4章 概率分布 4.1 度量事件发生的可能性 3.2 随机变量概率分布 3.3 由正态分布导出的几个重要分布 3.4 样本统计量的概率分布
学习目标 • 度量事件发生的可能性—概率 • 离散型概率分布 • 二项分布,泊松分布,超几何分布 • 连续型概率分布 • 正态分布 • 由正态分布导出的几个重要分布 • c2-分布, t-分布, F-分布 • 样本统计量的概率分布
中奖的可能性有多大? • 很多想在彩票市场上赚大钱,这可以理解,但赢得大奖的人总是少数。山东的一打工者为了碰运气,半个小时花去了1000元钱,买了500张即开型福利彩票,结果也没撞上大奖。有人曾做过统计,最赚钱的彩票,中彩的概率最高是500万分之一,有的达到1000万分之一甚至更低 • 假定每张彩票面值是2元,大奖的奖金额是500万元,中将概率是500万分之一,你花掉1000万元购买500万张彩票,即使中了500万的大奖,你仍然亏损500万。况且,从概率的意义上看,即使你购买500万张彩票,也不能肯定就中大奖 • 法国人就有这样的俗语:“中彩的机会比空难还少。”对于多数人来说,彩票只是一种数字游戏,是社会筹集闲散资金的一种方式,而不是一种投资,更不是赌博。相信有了本章介绍的概率方面的知识,你就不会再跟彩票较劲
第 4 章 概率分布 4.1 度量事件发生的可能性 • 概率是什么? • 怎样获得概率? • 怎样理解概率?
什么是概率?(probability) • 概率是对事件发生的可能性大小的度量 • 明天降水的概率是80%。这里的80%就是对降水这一事件发生的可能性大小的一种数值度量 • 你购买一只股票明天上涨的可能性是30%,这也是一个概率 • 一个介于0和1之间的一个值 • 事件A的概率记为P(A)
怎样获得概率? • 重复试验获得概率 • 当试验的次数很多时,概率P(A)可以由所观察到的事件A发生次数(频数)的比例来逼近 • 在相同条件下,重复进行n次试验,事件A发生了m次,则事件A发生的概率可以写为 • 用类似的比例来逼近 • 一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值 主观概率
正面 /试验次数 1.00 0.75 0.50 0.25 0.00 125 0 25 50 75 100 试验的次数 怎样理解概率? • 投掷一枚硬币,出现正面和反面的频率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右(注意:抛掷完成后,其结果就是一个数据,要么一定是正面,要么一定是反面,就不是概率问题了)
第 4 章 概率分布 4.2 随机变量的概率分布 4.2.1 随机变量及其概括性度量 4.2.2 离散型概率分布 4.2.3 连续型概率分布
4.2 随机变量的概率分布 4.2.1 随机变量及其概括性度量
什么是随机变量?(random variables) • 事先不知道会出现什么结果 • 投掷两枚硬币出现正面的数量 • 一座写字楼,每平方米的出租价格 • 一个消费者对某一特定品牌饮料的偏好 • 一般用 X,Y,Z 来表示 • 根据取值情况的不同分为离散型随机变量和连续型随机变量
离散型随机变量(discrete random variables) • 随机变量 X取有限个值或所有取值都可以逐个列举出来 x1 , x2,… • 以确定的概率取这些不同的值 • 离散型随机变量的一些例子
连续型随机变量(continuous random variables) • 可以取一个或多个区间中任何值 • 所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点 • 连续型随机变量的一些例子
离散型随机变量的期望值(expected value) • 描述离散型随机变量取值的集中程度 • 离散型随机变量X的所有可能取值xi与其取相对应的概率 pi 乘积之和 • 记为 或E(X),计算公式为
离散型随机变量的方差(variance) • 随机变量X的每一个取值与期望值的离差平方和的数学期望,记为 2或D(X) • 描述离散型随机变量取值的分散程度 • 计算公式为 • 方差的平方根称为标准差,记为 或D(X)
离散型数学期望和方差(例题分析) 【例】一家电脑配件供应商声称,他所提供的配件100个中拥有次品的个数及概率如下表。求该供应商次品数的数学期望和标准差
连续型随机变量的期望和方差 • 连续型随机变量的期望值 • 方差
4.2 随机变量的概率分布 4.2.2 离散型概率分布
离散型随机变量的概率分布 • 列出离散型随机变量X的所有可能取值 • 列出随机变量取这些值的概率 • 通常用下面的表格来表示 • P(X =xi)=pi称为离散型随机变量的概率函数 • pi0 ; • 常用的有二项分布、泊松分布、超几何分布等
离散型随机变量的概率分布(例题分析) 【例】一部电梯在一周内发生故障的次数X及相应的概率如下表 (1) 确定的值 (2) 求正好发生两次故障的概率 (3) 求故障次数多于一次的概率 (4) 最多发生一次故障的概率
离散型随机变量的概率分布(例题分析) 解:(1) 由于0.10+0.25+0.35+ =1 所以, =0.30 (2) P(X=2)=0.35 (3) P(X 2)=0.10+0.25+0.35=0.70 (4) P(X1)=0.35+0.30=0.65
二项试验(Bernoulli试验) • 二项分布建立在Bernoulli试验基础上 • 贝努里试验满足下列条件 • 一次试验只有两个可能结果,即“成功”和“失败” • “成功”是指我们感兴趣的某种特征 • 一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的 • 试验是相互独立的,并可以重复进行n次 • 在n次试验中,“成功”的次数对应一个离散型随机变量X
二项分布(Binomial distribution) • 重复进行n次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p) • 设X为 n 次重复试验中出现成功的次数,X 取 x的概率为
二项分布(例题分析) 【例】已知一批产品的次品率为4%,从中任意有放回地抽 取5个。求5个产品中 (1) 没有次品的概率是多少? (2) 恰好有1个次品的概率是多少? (3) 有3个以下次品的概率是多少?
二项分布(用Excel计算概率) • 第1步:在Excel表格界面,直接点击【fx】(插入函数)命令 • 第2步:在【选择类别】中点击【统计】,并在【选择函数】 • 中点击【BINOMDIST】,然后单击【确定】 • 第3步:在【Number_s】后填入试验成功次数(本例为1) • 在【Trials】后填入总试验次数(本例为5) • 在【Probability_s】后填入试验的成功概率(本例为 • 0.04) • 在【Cumulative】后填入0(或FALSE),表示计算成 • 功次数恰好等于指定数值的概率(填入1或TRUE表示 • 计算成功次数小于或等于指定数值的累积概率值)
泊松分布(Poisson distribution) • 1837年法国数学家泊松(D.Poisson,1781—1840)首次提出 • 用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布 • 泊松分布的例子 • 一定时间段内,某航空公司接到的订票电话数 • 一定时间内,到车站等候公共汽车的人数 • 一定路段内,路面出现大损坏的次数 • 一定时间段内,放射性物质放射的粒子数 • 一匹布上发现的疵点个数 • 一定页数的书刊上出现的错别字个数
泊松分布(概率分布函数) — 给定的时间间隔、长度、面 积、体积内“成功”的平均数 e = 2.71828 x —给定的时间间隔、长度、面 积、体积内“成功”的次数
泊松分布(例题分析) 【例】假定某航空公司预订票处平均每小时接到42次订票电话,那么10分钟内恰好接到6次电话的概率是多少? 解:设X=10分钟内航空公司预订票处接到的电话次数
泊松分布(用Excel计算概率) • 第1步:在Excel表格界面,直接点击【fx】(插入函数)命令 • 第2步:在【选择类别】中点击【统计】,并在【选择函数】 • 中点击【POISSON】,然后单击【确定】 • 第3步:在【X】后填入事件出现的次数(本例为6) • 在【Means】后填入泊松分布的均值(本例为7) • 在【Cumulative】后填入0(或FALSE),表示计算成 • 功次数恰好等于指定数值的概率(填入1或TRUE表示 • 计算成功次数小于或等于指定数值的累积概率值)
超几何分布(hypergeometric distribution) • 采用不重复抽样,各次试验并不独立,成功的概率也互不相等 • 总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布 • 概率分布函数为
超几何分布(例题分析) 【例】假定有10支股票,其中有3支购买后可以获利,另外7支购买后将会亏损。如果你打算从10支股票中选择4支购买,但你并不知道哪3支是获利的,哪7支是亏损的。求 (1)有3支能获利的股票都被你选中的概率有多大? (2)3支可获利的股票中有2支被你选中的概率有多大? 解:设N=10,M=3,n=4
超几何分布(用Excel计算概率) • 第1步:在Excel表格界面,直接点击【fx】(插入函数)命令 • 第2步:在【选择类别】中点击【统计】,并在【选择函数】 • 中点击【 HYPGEOMDIST】,然后单击【确定】 • 第3步:在【Sample_s 】后填入样本中成功的次数x(本例为3) • 在【Number_sample】后填入样本容量n(本例为4) • 在【Population_s】后填入总体中成功的次数M(本例 • 为3) • 在【Number_pop】后填入总体中的个体总数N • (本例为10)
4.2 随机变量的概率分布 4.2.3 连续型概率分布
连续型随机变量的概率分布 • 连续型随机变量可以取某一区间或整个实数轴上的任意一个值 • 它取任何一个特定的值的概率都等于0 • 不能列出每一个值及其相应的概率 • 通常研究它取某一区间值的概率 • 用概率密度函数的形式和分布函数的形式来描述
f (x) x 正态分布(normal distribution) • 由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出 • 描述连续型随机变量的最重要的分布 • 许多现象都可以由正态分布来描述 • 可用于近似离散型随机变量的分布 • 例如: 二项分布 • 经典统计推断的基础
概率密度函数 • f(x) = 随机变量 X 的频数 = 正态随机变量X的均值 = 正态随机变量X的方差 • = 3.1415926; e = 2.71828 • x = 随机变量的取值 (- < x < +)
正态分布函数的性质 • 图形是关于x=对称钟形曲线,且峰值在x= 处 • 均值和标准差一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族” • 均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭 • 当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交 • 正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1
f(x) B =1/2 =1 A C x 1 2 和 对正态曲线的影响
标准正态分布(standardize normal distribution) • 随机变量具有均值为0,标准差为1的正态分布 • 任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布 • 标准正态分布的概率密度函数 • 标准正态分布的分布函数
正态分布(用Excel计算正态分布的概率) • 第1步:在Excel表格界面中,点击“fx”(插入函数)命令 • 第2步:在【选择类别】中点击【统计】,并在【选择函数】 • 中点击【NORMDIST】,然后单击【确定】 • 第3步:在【X】后输入正态分布函数计算的区间点(即x值) • 在【Mean】后输入正态分布的均值 • 在【Standard_dev】后输入正态分布的标准差 • 在【Cumulative】后输入1(或TRUE)表示计算事件出 • 现次数小于或等于指定数值的累概率 • 单击【确定】
正态分布(计算标准正态分布的概率和反函数值)正态分布(计算标准正态分布的概率和反函数值) 计算概率 • 第1步:在Excel表格界面中,点击“fx”(插入函数)命令 • 第2步:在【选择类别】中点击【统计】,并在【选择函数】中点击 • 【NORMSDIST】,单击【确定】 • 第3步:在【Z】后输入Z的值。单击【确定】 • 第1步:在Excel表格界面中,点击“fx”(插入函数)命令 • 第2步:在【选择类别】中点击【统计】,并在【选择函数】中点击 • 【NORMSINV】,然后单击【确定】 • 第3步:在【Probability】后输入给定的概率值。单击【确定】 计算z值
正态分布(例题分析) 【例】计算以下概率 (1)X~N(50,102),求 和 (2)Z~N(0,1),求 和 (3)正态分布概率为 0.05 时,求标准正态累积分布函数 的反函数值 z
数据正态性的评估 • 对数据画出频数分布的直方图或茎叶图 • 若数据近似服从正态分布,则图形的形状与上面给出的正态曲线应该相似 • 绘制正态概率图。有时也称为分位数—分位数图或称Q-Q图或称为P-P图 • 用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t分布等等 • P-P图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的 • Q-Q图则是根据观测值的实际分位数与理论分布(如正态分布)的分位数绘制的 • 使用非参数检验中的Kolmogorov-Smirnov检验(K-S检验)
正态概率图的绘制(normal probability plots) • 正态概率图可以在概率纸上绘制,也可以在普通纸上绘制。在普通纸上绘制正态概率图的步骤 • 第1步:将样本观察值从小到大排列 • 第2步:求出样本观察值的标准正态分数zi。标准正 • 态分数满足 • 第3步:将zi作为纵轴,xi作为横轴,绘制图形,即为 • 标准正态概率图
正态概率图的绘制(例题分析) • 【例】在一家保险公司中随机抽取10名销售人员,他们的年销售(单位:万元)分别为176,191,214,220,205,192,201,190,183,185。绘制正态概率图,判断销售额数据是否服从正态分布
用SPSS绘制正态概率图 • 第1步:选择【Graphs】下拉菜单,并选择【P-P】 • 或 【Q-Q】选项进入主对话框 • 第2步:在主对话框中将变量选入【Variables】 • ,点击【OK】
正态概率图的绘制(例题分析) P-P图 Q-Q图
正态概率图的分析(normal probability plots) • 实际应用中,只有样本数据较多时正态概率图的效果才比较好。当然也可以用于小样本,但此时可能会出现与正态性有较大偏差的情况 • 在分析正态概率图时,最好不要用严格的标准去衡量数据点是否在一条直线上,只要近似在一条直线上即可 • 对于样本点中数值最大或最小的点也可以不用太关注,除非这些点偏离直线特别远,因为这些点通常会与直线有偏离。如果某个点偏离直线特别远,而其他点又基本上在直线上时,这个点可能是离群点,可不必考虑