880 likes | 1.08k Views
第七章 抽样调查. 【 学习目标 】 通过本章学习,重点掌握参数估计和假设检验的方法;掌握抽样调查的基本概念和数理基础的核心内容;了解抽样调查的意义和抽样组织设计的应用。. 第一节 抽样调查的意义. 第二节 总体和样本. 第三节 抽样调查的数理基础. 第四节 总体参数估计. 第五节 抽样设计. 第六节 统计假设检验. 第七章 抽样调查. 第一节 抽样调查的意义. 一、 抽样调查的历史与应用. 1776 年,法国经济学家麦桑斯 在 《 法国人口论 》 一书中, 以部分地区的人口清查数来推算全国人口数 。.
E N D
第七章 抽样调查 【学习目标】通过本章学习,重点掌握参数估计和假设检验的方法;掌握抽样调查的基本概念和数理基础的核心内容;了解抽样调查的意义和抽样组织设计的应用。 第一节抽样调查的意义 第二节总体和样本 第三节抽样调查的数理基础 第四节总体参数估计 第五节抽样设计 第六节统计假设检验
第七章 抽样调查 第一节 抽样调查的意义 一、抽样调查的历史与应用 1776年,法国经济学家麦桑斯在《法国人口论》一书中,以部分地区的人口清查数来推算全国人口数。 1802年,法国数学家拉普拉斯调查了30个县的人口数,得出人口出生率为35.27‰;后来他出版了《概率分析理论》一书。 1895年,在第五届国际统计学会上,挪威统计局局长凯尔提出了所谓“代表性调查”的抽样方法。 1925年,在第十六次国际统计学会上,鲍莱的《抽样精确度的测定》和詹森的《代表性方法和实践》两个报告,都从理论上肯定了随机抽样的科学性。此后,抽样调查为各国普遍采用。
第七章 抽样调查 第一节 抽样调查的意义 我国对抽样调查的应用始于20世纪三十年代,北京大学许宝 騄教授所著的《抽样论》,为开展抽样调查提供了方法依据。 1943年,在清华大学陈达教授的主持下,我国进行了云南户籍示范人口普查。并用抽样调查方法核对了普查结果。 1955年,我国第一次在全国范围内,按统一方案、统一计划进行了农民家计抽样调查。 1981年9月,国家统计局在《关于加强和改革统计工作的报告》中提出:“凡是适合用抽样调查的,就不用全面报表”。 1994年,我国确立了以周期性普查为基础,以经常性抽样调查为主体,同时辅之以重点调查、科学核算等综合运用的统计调查方法体系,抽样调查的主体方法地位得以正式确立。
第七章 抽样调查 随机抽取 推断 第一节 抽样调查的意义 二、抽样调查的概念和特点 (一)抽样调查的概念 是按照随机原则从调查对象的总体中抽取部分单位进行调查,并根据这部分单位的调查结果推断总体的数量特征。 样本 总体
第七章 抽样调查 第一节 抽样调查的意义 (二)抽样调查的特点 ⑴ 随机抽取样本单位。 随机原则是指,排除人们主观意愿的干扰,使得总体中每个单位都有同等被抽中的机会。 ⑵推断总体数量特征。 抽样调查的中心问题是如何根据已知的(样本)资料来推断未知的总体情况。 ⑶抽样调查结果只有可控性误差。 通过各种组织措施来控制抽样误差范围,保证抽样推断的结果达到预定可靠程度的要求。
第七章 抽样调查 第一节 抽样调查的意义 三、抽样调查的应用范围 1. 用于不可能进行全面调查的现象。 如调查某地区的矿藏、某城市的空气质量等。 2. 用于进行全面调查就会失去现实意义的现象。 如炮弹射程的测量,电视、灯泡等耐用时数的检验等。 3. 用于经济上不允许或精度上不必要进行全面调查的现象。 如某市居民家计调查,某林区的木材储存量调查等。 4. 用于时效性要求较强的调查。 如为满足领导机关及时制订政策、安排工作需要而进行的民意测验,某农产品的产量调查等。
第七章 抽样调查 第一节 抽样调查的意义 四、抽样调查的作用 1. 经济性好。 抽样调查与全面调查相比,节省人力、物力和财力。 2. 准确性高。 抽样调查发生登记性误差的可能性小。 3. 速度快。 4. 可以取得比较详细的统计资料。 抽样调查的工作人员通常专业水平高,因而可以对认识对象进行更细致更深入的调查,取得更加详细的统计资料 。 5. 可以对全面调查的资料进行补充和修正。
第七章 抽样调查 第二节 总体和样本 一、全及总体和样本总体 (一)全及总体 简称总体或母体,是指所要认识对象全部单位的集合体。全及总体单位数用字母“N”来表示。 (二)抽样框 指包括全部抽样单位的名单框架。抽样框的形式:①名单抽样框。②区域~。③时间表~。 (三)样本总体 简称样本或子样,是指从全及总体中随机抽取出来的那部分单位的集合体。样本容量用字母“n”来表示。 (n≥30时,称为大样本;否则为小样本。)
第七章 抽样调查 第二节 总体和样本 二、总体指标和样本指标 (一)总体指标 也称为总体参数,是根据全及总体各单位标志值计算的,反映总体的数量特征。(总体指标的数值是确定的) 在抽样调查中,总体指标主要有总体平均数: 、总体比率P(或Q)、总体方差 和总体标准差 。 (二)样本指标 又称为样本统计量,简称为统计量,指由样本总体各单位标志值计算的综合指标。 样本指标主要有样本平均数: 、样本比率p(或q)、样本方差 和样本标准差 。
第七章 抽样调查 第二节 总体和样本 设样本有 n 个单位,其标志表现分别为: 则样本平均数、样本方差和样本标准差分别为: 设样本 n 个单位中有 n1 个单位具有某种属性,n0 个单位不具有某种属性, n=n1 +n0 ,则样本比率、样本方差和样本标准差分别为:
第七章 抽样调查 第二节 总体和样本 三、抽样方法和样本可能数目 (一)抽样方法 指从总体中随机抽样的具体抽取方式。 1. 重复抽样 也叫重置抽样,是指每次抽取一个单位记录其标志表现后又放回,重新参加下一次的抽选。 2. 不重复抽样 也叫不重置抽样,是指每次从总体中抽取一个单位记录其标志表现后不再放回,从剩余的单位中抽取下一个单位。所有单位在同一次抽样中被抽选为样本单位的概率是相等的,每个单位在各次抽样中中选的机会是不同的。
第七章 抽样调查 第二节 总体和样本 (二)样本可能数目 指抽样组织和抽样方法一定时,从总体 N 个单位中随机抽取一个容量为n 的样本,该样本不同构成的可能数目。 1. 重复抽样的样本可能数目 重复抽样,通常还要考虑样本单位的排列顺序,如电话号码中的“863”和“368”不同。重复抽样的样本可能数目为: 2. 不重复抽样的样本可能数目 不重复抽样,通常不考虑样本单位的排列顺序,如篮球队的5个队员按其号码“1,2,3,4,5”排队和“5,4,3,2.1”排队是同一个队。不重复抽样的样本可能数目为:
第七章 抽样调查 不重置 抽样 第二节 总体和样本 例1:设总体有A、B、C、D 4个单位,现在要从中随机抽取2个单位构成样本。试分别计算重复抽样的样本可能数目和不重复抽样的样本可能数目。 解:编制样本构成表如下:
第七章 抽样调查 5 4 3 5 4.5 4 4.5 4 3.5 4 3.5 3 样本均值 (统计量) 5 4 3 第三节 抽样调查的数理基础 一、抽样分布 抽样分布就是指样本统计量的概率分布。例如,从3名学生(成绩分别为5分、4分和3分)中抽取2名学生调查平均成绩。 抽样分布:
第七章 抽样调查 第三节 抽样调查的数理基础 二、大数定律及其意义 ⒈独立同分布大数定律 独立随机变量x1 ,x2,…,具有相同分布,且存在有限的数学期望μ和方差σ2,则对于任意小的正数ε,有 ⒉贝努力大数定律 设m是n次独立随机试验中事件A发生(“成功”)的次数,p是事件A在每次试验中发生的概率,则对于任意小的正数ε,有
第七章 抽样调查 第三节 抽样调查的数理基础 大数定律可归纳如下: 1) 现象的总体性规律(或称统计规律),只有当具有这种现象的足够多数的单位汇总在一起的时候,才能显示出来。 2) 现象的总体性规律或倾向通常是以平均数(或比率)的形式表现出来的。 3) 当所研究的现象总体包含的单位越多,平均数(或比率)也就越能够正确反映出这些现象的规律性。 4) 各单位的共同倾向(这些表现为主要的、基本的因素)决定着平均数(或比率)的水平,而各单位对平均数(或比率)的离差(这些表现为次要的、偶然的因素)则会由于足够多数单位的综合汇总的结果,而相互抵消,趋于消失。
第七章 抽样调查 第三节 抽样调查的数理基础 三、正态分布及其意义 (一)正态分布的概念及其特点 1.正态分布函数 2.正态分布的密度函数 式中,x为随机变量,e为自然对数的底,π为圆周率,σ为变量标准差。
第七章 抽样调查 第三节 抽样调查的数理基础 3. 关于密度函数的二个参数—平均数和标准差 平均数 决定密度函数f(x)的中心位置: 标准差σ决定f(x)曲线的陡缓程度,σ越大曲线越平缓,σ越小曲线越陡峭:
第七章 抽样调查 第三节 抽样调查的数理基础 4. 正态分布密度函数的特点 1) 对称性。 2) 非负性。 3) f(x)在X=时达到极大值。 4) f(x)曲线在X=±σ处有拐点。 5) 当X→±∞时, f(x)曲线以X轴为渐近线。 5. 标准正态分布 当 =0,σ=1时,我们称密度函数f(x)的分布为标准正态分布,记为Z~N(0,1)。标准正态分布用φ(z)表示,φ(z)具有如下性质:
第七章 抽样调查 第三节 抽样调查的数理基础 (二)正态分布的应用 例2:某厂生产的一批小型装置,其寿命X服从均值为8,标准差为2(单位:年)的正态分布。⑴求整批小型装置中寿命大于7年的比率;⑵求整批小型装置中寿命介于7~9年的比率;⑶如果工厂规定在保用年限期间遇有故障可免费换新,将要求免费换新的比率定为3%,求保用年限。 解: 查正态概率表得: 即工厂应将保用年限定为4年。
第七章 抽样调查 第三节 抽样调查的数理基础 四、中心极限定理及其意义 中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称。下面介绍一个最简单也是最实用的定理。 独立同分布中心极限定理:设x1,x2,…是独立同分布的随机变量序列,且存在有限的数学期望μ和方差σ2,那么当 n →∞时,
第七章 抽样调查 第四节 总体参数估计 一、参数估计的优良标准 (一)无偏性 指一个优良的估计量,其数学期望应等于被估计总体参数的真值。 (二)有效性 指作为优良的估计量,其方差应比较小。这样才能保证估计量的取值能集中在被估计的总体参数附近。 (三)一致性 指随着样本容量n 的增大,一个好的估计量将在概率意义下愈来愈接近于所要估计的总体参数真值。
第七章 抽样调查 第四节 总体参数估计 二、抽样误差 (一) 抽样误差的意义 1. 抽样误差的概念 抽样误差,是指由于随机抽样引起的样本结构不同于总体而产生的样本估计量取值与总体参数之间的离差。
第七章 抽样调查 第四节 总体参数估计 2. 影响抽样误差的因素 1) 总体变异度。抽样误差与总体标准差(σ) 成正比。 2) 样本容量。抽样误差与样本容量(n)的算术平方根成反比。 3) 抽样方法。不重复抽样比重复抽样所产生的误差小。 4) 抽样组织。一般说来,常用抽样组织形式的抽样误差由小到大的顺序是:类型(分层)抽样、机械(等距)抽样、纯随机(简单随机)抽样、整群抽样。
第七章 抽样调查 第四节 总体参数估计 (二)抽样平均误差 1. 抽样平均误差的概念 指所有可能样本估计值与所要估计参数离差的平均数。以估计均值为例,其抽样平均误差可用如下公式表示。 2. 抽样平均误差的计算 1) 样本平均数的抽样平均误差 (重复抽样) (不重复抽样)
第七章 抽样调查 第四节 总体参数估计 例3:总体有A、B、C、D 4名学生,其考试成绩分别为5分、4分、4分、3分,总体均值为4分,方差为0.5。现要从中随机抽取2名学生构成样本。试分别计算重复抽样和不重复抽样的抽样平均误差。 解:①重复抽样 ②不重复抽样 2) 样本比率的抽样平均误差 (重复抽样) (不重复抽样)
第七章 抽样调查 第四节 总体参数估计 3) 不重复抽样的修正系数 当N 很大时, 当抽样比(n/N)很小时, 例4:估计某市20万户家庭的电脑拥有率,随机抽取100户家庭,调查结果显示85户拥有电脑,求本次调查的抽样平均误差。 解:p=85÷100=85%
第七章 抽样调查 第四节 总体参数估计 (三)抽样极限误差 指一定概率(估计的可靠程度要求)下,抽样误差的可能范围。用“Δ”表示。 抽样误差系数: 抽样估计精度:
第七章 抽样调查 第四节 总体参数估计 三、抽样估计的置信度 指总体指标落在抽样极限误差范围内的概率。 四、点估计与区间估计 (一)点估计 也称定值估计,它是以样本指标值作为总体参数的估计值。 例如,在我国随机抽取6000名大学生,调查得月平均生活费500元。则说,我国大学生月平均生活费500元。
第七章 抽样调查 第四节 总体参数估计 (二)区间估计 区间估计,是指根据样本估计量以一定可靠程度推断总体参数所在的区间范围。 以估计总体均值为例,对于给定的置信度(1-α),有 区间估计有三项基本要素: ①估计值: ②估计值的可能误差范围: ③参数估计的置信度:
第七章 抽样调查 第四节 总体参数估计 五、总体平均数估计 (一)大样本的总体平均数估计 根据中心极限定理可知,大样本情况下, 当给定置信度(1-α)时,可由正态概率表查得临界值: 即
第七章 抽样调查 第四节 总体参数估计 例5:某企业生产A产品的工人有1000人,某日采用不重复 抽样从中随机抽取100人调查他们的当日产量,得人均产量为35件, 标准差为4.5件。请以95.45%的置信度估计该日人均产量的置信区间。 解:①计算抽样平均误差 ②计算抽样极限误差 ③确定置信区间 估计区间下限:35-0.8538=34.15(件) 估计区间上限:35+0.8538=35.85(件) 故,可以95.45%的置信度断言,该日人均产量在34.15~35.85件之间。
第七章 抽样调查 第四节 总体参数估计 例6:某进口公司出口一种茗茶,为检查其每包规格的重量, 抽取样本100包,检查结果如下表所示。按规定这种茶叶每包规格 重量应不低于150克,试以99.73%的概率对这批茶叶的平均重量做出估计。 解:①计算样本指标
第七章 抽样调查 第四节 总体参数估计 ②计算抽样平均误差 ③计算抽样极限误差 ④确定置信区间 估计区间下限:150.3-0.2629=150.0(克) 估计区间上限:150.3+0.2629=150.6(克) 故,该批茶叶平均重量在150.0-150.6克之间,可靠保证程度为99.73%。
第七章 抽样调查 第四节 总体参数估计 例7:考察某类人的平均身高,随机抽取1000人,测是平均身高为168 cm,标准差为5.92cm,要求误差不得超过0.5cm,试确定估计的可靠程度。 解:①计算抽样平均误差 ②计算该抽样估计的概率度 即 ③确定估计结果的置信度 查正态概率表得, 即 则 所以,该抽查结果的可靠程度为99.24%。
第七章 抽样调查 第四节 总体参数估计 (二)小样本的总体平均数估计 定理 7.1 若 则 例8:某企业从长期实践得知,其产品直径X是一随机变量,服从标准差σ为0.05的正态分布。从某日产品中随机抽取6个,测得其直径分别为14.8,15.3,15.1,15.0,14.7,15.1(单位:厘米)。在0.95的置信度下,试求该产品直径均值的置信区间。 解:①计算样本均值 ②计算抽样平均误差
第七章 抽样调查 第四节 总体参数估计 ③计算抽样极限误差 ④确定置信区间 估计区间下限:15.0-0.04=14.96(厘米) 估计区间上限:15.0+0.04=15.04(厘米) 所以,该企业产品直径均值在14.96~15.04厘米之间,置信度为95%。 定理 7.2 若 当方差σ2未知,n<30时,
第七章 抽样调查 第四节 总体参数估计 例9: 某商场从一批袋装食品中随机抽取10袋,测得每袋重量 (单位:克)分别为789、780、794、762、802、813、770、785、810、806,要求以95%的把握程度,估计这批食品平均每袋重量的区间范围。 解:①计算样本指标 ②计算抽样平均误差
第七章 抽样调查 第四节 总体参数估计 ③计算抽样极限误差 ④确定置信区间 估计区间下限:791.1-12.26=778.84(克) 估计区间上限:791.1+12.26=803.36(克) 故,在95%的置信度下,这批食品平均每袋重量的置信区间是778.8~803.4克。
第七章 抽样调查 第四节 总体参数估计 六、总体比率估计 总体比率 P 是总体是非标志的平均数,平均数估计理论都适用于总体比率 P 的估计,只是估计量的形式略有不同。 例10:某厂对一批产品的质量进行抽样检验,随机抽取样品 100只,调查得样本优质品率为80%,试计算当把握程度为90%时该批产品优质品率的区间范围。 解:
第七章 抽样调查 第四节 总体参数估计 即,该批产品优质品率在73.42%-86.58%之间,其把握程度为90%。 例11:某市有居民家庭20万户,现随机抽取500户,调查他们的耐用消费品情况,结果显示,拥有电脑的家庭占85%,请以95.45% 的概率保证程度估计该市全部居民家庭中,拥有电脑家庭的比率。 解: 即,该市全部居民家庭中拥有电脑家庭的比率在81.81%-88.19 %之间,其把握程度为95.45%。
第七章 抽样调查 第五节 抽样设计 一、抽样设计的原则 1) 保证实现抽样的随机性原则。 2) 保证实现最大的抽样效果原则。 【专栏7-1】 抽样的基本要求 我国的高校教师队伍庞大,2005年的统计数据表明,全国普通高校和成人高校教师总数达到105万人。因此,当我们要分析高校教师的整体收入水平时,就只能从105万人中选取一定数量的教师,以其收入为样本来进行分析,这个过程就是抽样。然后,
第七章 抽样调查 第五节 抽样设计 【专栏7-1】 根据样本的结果来推断总体的状况,得出全体高校教师的收入水平。抽样理论告诉我们,抽样的样本必须满足随机性和代表性的要求。随机性指抽样时,样本必须从总体中随机抽取,以使得每个个体都有均等的概率进入样本。有时样本的随机性虽然得到了满足,但样本并不能很好地吻合总体的分布,也就很难反映总体的状况,无法代表总体。为此,好的样本也必须是有代表性的样本。另外,大数定理告诉我们,“大量”随机现象的平均结果具有稳定性。因此,要客观地研究高校教师收入状况,抽取样本时,除了要满足随机性、代表性的要求外,还必须使样本容量达到一定规模,这样才能得出总体稳定的规律性来。 (资料来源:李琴,统计学还您一个真实的高校教师收入,中国统计,2007.1)
第七章 抽样调查 第五节 抽样设计 二、抽样组织设计 (一)简单随机抽样 1. 纯随机抽样的取样方法 1) 直接抽取法,如从仓库存放的某种商品中随机抽取若干件进行检验。 2) 抽签法,先给各单位编号,并制成签卡,将其混合均匀后,从中随机抽取,直至抽到预定需要的抽样单位数为止。 3) 随机数表法,将各单位编号后,使用摇号机摇出任意号码,确定中选单位,也可采用事前编好的随机数字表抽取样本单位,还可利用电子计算机的随机键RAN来抽取样本单位,…。
第七章 抽样调查 第五节 抽样设计 2. 纯随机抽样的样本容量确定 1) 估计平均数的必要抽样数目 当N 很大时, 2) 估计比率的必要抽样数目 当N 很大时,
第七章 抽样调查 第五节 抽样设计 例12:某批产品的历史数据显示,平均重量为65.85千克,合格率为98%,方差为5.456,现准备对这批产品进行简单随机抽样检查,要求可靠程度达到99.73%,误差范围不超过0.9千克。试问检查平均重量与合格率各需要抽多少样本单位? 解: 即检查平均重量应抽取61个样品;检查合格率应抽取71个样品。 例13:某企业对一批产品进行质量检验,这批产品的总数为5000件,过去几次同类调查所得的产品合格率分别为93%、95%和96%,要求在95.45%的概率保证程度下,合格率的误差范围不超过3%,应抽查多少件产品?
第七章 抽样调查 第五节 抽样设计 解: 即重复抽样至少应抽取290件产品,不重复抽样至少应抽取274件产品。 (二)分层抽样 1. 分层抽样及其组织 分层抽样又叫分类抽样或类型抽样。它是按与调查目的有关的某个主要标志将总体划分为若干层(或类),然后从各层中按随机原则分别抽取一定数目的单位构成样本。
第七章 抽样调查 第五节 抽样设计 总体 N 样本 n
第七章 抽样调查 第五节 抽样设计 2. 分层抽样的抽样平均误差 1) 重复抽样平均误差 2) 不重复抽样平均误差(等比例分层抽样)
第七章 抽样调查 第五节 抽样设计 例14:某农场在甲、乙、丙三种类型土地上种植某种农作物1200亩, 临近收割时,按5%比例抽取60亩进行调查,得有关数据如下表,试以95.45%的置信度估计该种农作物的平均亩产量 。 解:①计算样本指标