1.1k likes | 1.28k Views
第五章 抽样推断. 第一节 抽样推断概述. 第二节 随机抽样的概率分布. 第三节 参数估计. 第四节 抽样设计. 重要概念: 抽样推断,全及指标,抽样指标,抽样误差,抽样平均误差,极限误差,概率度,简单随机抽样,类型抽样,等距抽样,整群抽样。. 重点内容: 抽样平均误差的计算,总体平均数和成数的区间估计,样本容量的确定。. 总统选举结果民意调查. 1936 年,罗斯福和兰登在美国进行总统竞选,当时有一家著名杂志社 《 文学摘要 》 进行了一次民意调查预测,预测结果是:.
E N D
第五章 抽样推断 第一节 抽样推断概述 第二节 随机抽样的概率分布 第三节 参数估计 第四节 抽样设计
重要概念: 抽样推断,全及指标,抽样指标,抽样误差,抽样平均误差,极限误差,概率度,简单随机抽样,类型抽样,等距抽样,整群抽样。 重点内容: 抽样平均误差的计算,总体平均数和成数的区间估计,样本容量的确定。
总统选举结果民意调查 1936年,罗斯福和兰登在美国进行总统竞选,当时有一家著名杂志社《文学摘要》进行了一次民意调查预测,预测结果是: 兰登(57%) 胜 罗斯福(43%) 这些预测是根据有约240万人参加的问卷调查作出的,样本数已足够多了,但不幸的是,竞选结果是: 罗斯福(62%) 胜 兰登(38%)
罗斯福以一边倒的优势当选为总统,此后不久,《文学摘要》杂志社就垮了。罗斯福以一边倒的优势当选为总统,此后不久,《文学摘要》杂志社就垮了。 《文学摘要》预测误差幅度之大令人吃惊,这是重要民意测验所出现过的最大的误差,成为西方统计教学中的一个经典案例。 这么大的误差是怎么得来的呢? 我们来看一下其民意调查过程: 1.调查中共印制问卷1000万份,回收240万份。 2.采用邮寄问卷的形式,寄信地址来源于电话公司。
当时的社会经济背景是:1936年的美国只有1/4的人装了电话。当时的社会经济背景是:1936年的美国只有1/4的人装了电话。 预测失败的原因: 1.样本的选择不是随机的,是有偏的。装了电话与未装电话的人是富人与穷人两个不同的群体,投票倾向明显不同,大多数穷人支持罗斯福。 2.问卷的回收率偏低。回收的与未回收的问卷填写人也有不同的投票倾向。更加扩大的误差。
第一节 抽样推断概述 抽样推断 按照随机原则从全部研究对象中抽取一部分单位进行调查,并以调查结果对总体数量特征作出具有一定可靠程度的估计与推断,从而认识总体的一种统计方法。 指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会
抽样推断 全及总体指标:参数(未知量) 统计推断 样本总体指标:统计量(已知量)
随机原则的实现 是将总体中每个单位的编号写在外形完全一致的签上,将其搅拌均匀,从中任意抽选,签上的号码所对应的单位就是样本单位。 抽签法 将总体中每个单位编上号码,然后使用随机数表,查出所要抽取的调查单位。 随机数表法 是将随机数字编制为程序存储在计算机中,需要时将总体中各单位编上号码,启用随机数字发生器输出随机数字,然后从总体中找到相应总体单位形成样本。 计算机模拟法
随机样本 与总体分布特征相同 与总体分布特征不同 总体 非随机样本 并非所有的抽样估计都按随机原 则抽取样本,也有非随机抽样
抽样推断的特点 • 按随机原则抽取样本单位 • 以样本的数量特征推断总体的数量特征 • 抽样推断产生抽样误差,但抽样误差可以事先计算并控制 与全面调查相比,抽样调查既节省了人力、物力、财力和时间,又达到了认识总体数量特征的目的。我国在1994年确立了以周期性普查为基础,以经常性抽样调整为主体,同时辅之以重点调查、科学核算等综合运用的统计调查方法体系。
抽样推断的应用 • 不可能进行全面调查时 • 不必要进行全面调查时 • 来不及进行全面调查时 • 对全面调查资料进行补充修正时
思考与练习2: 讨论以下情况是否属于概率抽样: 1、从一个包含有100只兔子的实验室大笼子里抓10只兔子作试验,研究人员不经任何挑选,抓到哪只算哪只,抓满10只为止。 2、将100只兔子编号(1—100),任意列出10个不重复的数字(1—100的整数),以相应的兔子作为样本。 3、从钱包中随便抽出一纸币,凡兔子号码与纸币编号尾数相同(后两位数,00为100)者即作为抽中的样本。
思考与练习3: 某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄加的调查表进行分析,试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?
抽样推断的理论基础 表明大量随机观象平均结果具有稳定性的性质。大数定律论证了如果独立随机变量总体存在有限的平均数和方差,则对于充分大的样本可以近乎100%的概率,期望样本平均数与总体平均数的绝对离差为任意小。 大数定律 如果变量总体存在有限的平均数和方差,那么不论这个总体的分布如何,随着样本容量的增加,样本平均数的分布,便趋近于正态分布。 中心极限定律
抽样推断的基本概念 又称总体或母体,是所要认识研究对象的全体,它由具有某种共同性质或特征的单位所组成。常用N表示全及总体的单位数目。 全及总体 又称样本或子样,是指从全及总体中按照随机原则抽取的那部分个体的组合。抽样总体的单位数称为样本容量,通常用n表示。1<n<N。 抽样总体 n≥30称为大样本,n<30称为小样本.n/N称为抽样比. 例如:在100万户居民中,随机抽取1000户居民进行家庭收支情况调查,其中的100万户居民就是全及总体,而被抽中的1000户居民则构成抽样总体。
设总体中 个总体单位某项标志的标志值分别 为 ,其中具有某种属性的有 个 单位,不具有某种属性的有 个单位,则 根据全及总体各个单位的标志值或标志特征所计算的反映总体某种属性的综合指标 ,又称总体参数。 全及指标 ⒈ 总体平均数(又叫总体均值):
⒉ 总体单位标志值的标准差: ⒊ 总体单位标志值的方差:
⒋ 总体成数: ⒌ 总体是非标志的标准差: ⒍ 总体是非标志的方差:
指根据抽样总体各个单位的标志值或标志特征计算的综合指标,又被称为统计量,它是随机变量。指根据抽样总体各个单位的标志值或标志特征计算的综合指标,又被称为统计量,它是随机变量。 抽样指标 设样本中 个样本单位某项标志的标志值 分别为 ,其中具有和不具有某 种属性的样本单位数目分别为 和 个,则 ⒈ 样本平均数(又叫样本均值):
为自由度 为 的无偏估计 为 的无偏估计 ⒉ 样本单位标志值的标准差: ⒊ 样本单位标志值的方差:
⒋ 样本成数: 为 的 无偏估计 ⒌ 样本单位是非标志的标准差: 为 的 无偏估计 ⒍ 样本单位是非标志的方差:
抽样方法的分类 根据取样方式不同,可分为: 从总体N个单位中随机抽取一个样本容量为n的样本,每次从总体中抽取一个,并把结果登记下来,又放回总体中重新参加下一次的抽选。又称放回抽样 重复抽样 总体单位数N不变,同一单位可能多次被抽中。 每次从总体中抽选一个单位后就不再将其放回参加下一次的抽选。又称不放回抽样. 不重复抽样 总体单位数减少n,同一单位只可能被抽中一次。
抽样方法的分类 根据对样本的要求不同,可分为: 考虑顺序抽样 考虑各单位的中选顺序。 ABC≠CBA 不考虑各单位的中选顺序。 不考虑顺序抽样 ABC=CBA 考虑顺序的重复抽样 考虑顺序的不重复抽样 综合起来共有四种抽样方法 不考虑顺序的不重复抽样 不考虑顺序的重复抽样
样本的可能数目 考虑顺序的不重复抽样 考虑顺序的重复抽样 不考虑顺序的不重复抽样 不考虑顺序的重复抽样 把填湖南风采35选7福利彩票号码看作一次抽样,则它属于哪一种抽样?中特等奖的概率是多少?(0—9选6呢?) 不考虑顺序的不重复抽样,
样本的概率分布 把某一抽样方法的全部可能的样本指标与其相应的概率排列起来,就得到样本的概率分布。 若将样本指标的取值分别记为 其相应的概率记为P1,P2,…Pn,将它们按顺序排列起来,可得如下概率分布表。 …… ……
样本统计量所有可能值的概率分布 抽样分布 样本统计量 样本统计量 样本统计量 样本统计量 总体未知参数 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 样本统计量 第二节 随机抽样的概率分布 分布的形状及接近总体参数的程度 平均数 比率(成数) 方差 主要样本 统计量
平均数的抽样分布 学生 A B C D E F G 成绩 30 40 50 60 70 80 90 按随机原则抽选出4名学生,并计算平均分数。 二者均值相等
学生 A B C D E F G 成绩 30 40 50 60 70 80 90 离差 -30 -20 -10 0 10 20 30
全部可能样本平均数的均值等于总体均值,即: • 从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。 • 从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。 • 样本均值的标准差为总体标准差的 平均数的抽样分布
比率的抽样分布 • 全部可能样本比率的均值等于总体比率,即: • 从非正态总体中抽取的样本比率,当n足够大时其分布接近正态分布。 • 从正态总体中抽取的样本比率,不论容量大小其分布均为正态分布。 • 样本比率的标准差为总体标准的 。
具有博士学位的比率: P=0.5 比率的标准差: =0.5 从总体中按重复抽样方法随机抽取4人,计算其比率P和标准差 比率的抽样分布 教师 是否博士 A 是 B 是 C 否 D 否 E 否 F 是
比率的抽样分布 全部可能样本比率的均值等于总体比率,即: 从非正态总体中抽取的样本比率当n足够大时其分布接近正态分布。 从正态总体中抽取的样本比率不论容量大小其分布均为正态分布。 样本比率的标准差为总体标准差的 。
从中按重复抽样方式抽取2人,计算样本的均值 及方差S2。从中按重复抽样方式抽取2人,计算样本的均值 及方差S2。 方差的抽样分布 学生 A B C D 成绩 60 70 80 90 均值 =75 方差 2=125
样本抽样分布 原总体分布
抽样误差 167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM 170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM 平均身高=169.8CM 总平均身高=168.6CM 平均身高=174.6CM
第三节 参数估计 也叫抽样估计,就是根据样本指标数值对总体指标数值作出估计或推断。 参数估计 通常,把用来估计总体特征的样本指标叫估计量或统计量,待估计的总体指标叫总体参数。 1、它在逻辑上运用归纳推理而不是演绎推理。 特点 2、在方法上运用不确定的概率估计方法,而不是运用确定的数学分析方法。 3、抽样估计存在抽样误差。
优点 简单,具体明确 无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况 缺点 从总体中抽取一个随机样本,计算与总体参数相应的样本统计量,然后把该统计量视为总体参数的估计值,称为参数的点估计。 点估计
的抽样分布 点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差
估计值的优良标准 问题: 第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数? 第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个? 估计值的优良标准: 无偏性、有效性、一致性
设 为待估计的总体参数, 为样本统计量,则 的优良标准为: 指样本指标的均值应等于被估计的总体指标 无偏性 抽样估计量的优良标准 若 ,则称 为 的无偏估计量
若 ,则称 为比 更有效的估计量 指随着样本单位数 的增大,样本估计量将在概率意义下越来越接近于总体真实值 若 越大 越小,则称 为 的一致估计量 抽样估计量的优良标准 作为优良的估计量,除了满足无偏性的要求外,其方差应比较小 有效性 一致性
有效性 学生 A B C D E F G 成绩 30 40 50 60 70 80 90 按随机原则抽选出4名学生,并计算平均分数和中位分数。
有效性 中位数的抽样分布 平均数的抽样分布
无偏性 有偏 无偏
n=4时 的抽样分布 n=5时 的抽样分布 一致性 学生 A B C D E F G 成绩 30 40 50 60 70 80 90 按随机原则抽选出5名学生,并计算平均分数。
数理统计证明: • 为 的无偏、有效、一致估计量; • 为 的无偏、有效、一致估计量; • 为 的无偏、有效、一致估计量。 抽样估计量的优良标准
式中: 为样本平均数的抽样平均误差; 为可能的样本数目; 为第 个可能样本的平均数; 为总体平均数 区间估计 给出一个区间(置信区间)并推断真正的参数以一定的概率存在于这个区间的方法。 指每一个可能样本的指标值与总体指标值之间平均离差,即一系列样本指标的标准差 抽样平均 误差 注意:不要混淆抽样 标准差与样本标准差!