1.18k likes | 1.28k Views
第三章 抽样调查. 第一节 频率、概率与概率分布 第二节 抽样分布 第三节 抽样设计. 抽样调查特点: 只抽取总体中的一部分单位进行调查; 用一部分单位的指标数值去推断总体的指标数值; 抽选部分单位时,要遵循随机原则; “随机原则”,就是在抽选具体单位时,不搀杂调查者的主观判断,总体中的每一个单位都有同等被抽中的机会,抽中抽不中完全是偶然的(全凭机会),而不是人为地抽选。 为什么要遵守随机原则? 只有遵守随机原则,才能使抽选的部分单位与总体保持相同的结构,或相同的分布状况,使得抽选的部分单位有充分的代表性; 只有遵守随机原则,才有可能计算抽样误差。
E N D
第三章 抽样调查 • 第一节 频率、概率与概率分布 • 第二节 抽样分布 • 第三节 抽样设计
抽样调查特点: • 只抽取总体中的一部分单位进行调查; • 用一部分单位的指标数值去推断总体的指标数值; • 抽选部分单位时,要遵循随机原则; • “随机原则”,就是在抽选具体单位时,不搀杂调查者的主观判断,总体中的每一个单位都有同等被抽中的机会,抽中抽不中完全是偶然的(全凭机会),而不是人为地抽选。 • 为什么要遵守随机原则? • 只有遵守随机原则,才能使抽选的部分单位与总体保持相同的结构,或相同的分布状况,使得抽选的部分单位有充分的代表性; • 只有遵守随机原则,才有可能计算抽样误差。 • 4、抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制。
抽样调查的适用范围: • 事物在测量或试验时有破坏性,不可能进行全面调查; • 有些总体从理论上讲可以进行全面调查,但实际上办不到; • 和全面调查相比较,抽样调查能节省人力、费用和时间,而且比较灵活; • 在有些情况下,抽样调查的结果比全面调查要准确;可以用来对全面调查资料进行评价和修正; • 抽样调查方法可以用于工业生产过程中的质量控制; • 利用抽样推断的方法,可以对于某种总体的假设进行检验,来判断这种假设的真伪,以决定取舍; • 用抽样调查的资料修正和补充全面调查资料。
第一节 频率、概率与概率分布 一、随机事件与概率 (一)随机试验与事件 随机现象的特点是:在条件不变的情况下,一系列的试验或观测会得到不同的结果,并且在试验或观测前不能预见何种结果将出现。对随机现象的试验或观测称为随机试验,它必须满足以下的性质: (1)每次试验的可能结果不是唯一的; (2)每次试验之前不能确定何种结果会出现; (3)试验可在相同条件下重复进行。
在随机试验中,可能出现也可能不出现的结果,称之为随机事件,简称事件。试验的结果可能是一个简单事件,也可能是一个复杂事件。简单事件就是不可以再分解的事件,又称为基本事件。复杂事件是由简单事件组合而成的事件。基本事件还可称为样本点,设试验有n个基本事件,分别记为 (i=1,2,…,n)。集合Ω={ω1 ,ω2 , … ,ωn}称为样本空间,Ω中的元素就是样本点。
例:投掷一粒均匀的六面体骰子,出现的点数有可能是1、2、3、4、5、6共六种。这六种结果是基本结果,不可以再分解成更简单的结果了,所以Ω={1,2,3,4,5,6}为该试验的样本空间。“出现点数是奇数”这一事件就不是简单事件,它是由基本事件{1},{3}和{5}组合而成的。我们通常用大写字母A,B,C,…来表示随机事件,例如,设A表示“出现点数是奇数”,则A={1,3,5};设B表示“出现点数是偶数”,则B={2,4,6}。例:投掷一粒均匀的六面体骰子,出现的点数有可能是1、2、3、4、5、6共六种。这六种结果是基本结果,不可以再分解成更简单的结果了,所以Ω={1,2,3,4,5,6}为该试验的样本空间。“出现点数是奇数”这一事件就不是简单事件,它是由基本事件{1},{3}和{5}组合而成的。我们通常用大写字母A,B,C,…来表示随机事件,例如,设A表示“出现点数是奇数”,则A={1,3,5};设B表示“出现点数是偶数”,则B={2,4,6}。
(二)概率 1. 概率的定义 概率就是指随机事件发生的可能性,或称为机率,是对随机事件发生可能性的度量。 进行n次重复试验,随机事件A发生的次数是m次,发生的频率是m/n,当试验的次数n很大时,如果频率在某一数值p附近摆动,而且随着试验次数n的不断增加,频率的摆动幅度越来越小,则称p为事件A发生的概率,记为:P(A)=p。在古典概型场合, 即基本事件发生的概率都一样的场合:
例:设一个袋子中装有白球2个,黑球3个。(1) 从中随机摸出1只球,问刚好是白球的概率有多大? (2) 从中随机摸出2只球,一问2只球都是白球的概率有多大? 二问2只球一白一黑的概率有多大? 三问2只球都是黑球的概率有多大? • 解:(1) 由于摸出的任何1只球都形成一个基本事件,所以样本点总数为n=5。用A表示摸出的是白球事件,则A由两个基本点组成,即A={白球,白球},有利场合数m=2。因此,刚好摸出白球的概率为P(A)=m/n=2/5=0.4
(2) 由于摸出2只球才成一个基本事件,所以样本点总数为 故 P(A)=P(2只球都是白球)=1/ =1/10 P(B)=P(2只球一白一黑)=2×3/10=6/10 P(C)=P(2只球都是黑球)=3/10 NOTE: P(A+B+C)=1
2. 概率的基本性质 性质1 1≥P(A)≥0。 性质2 P(Ω)=1。 性质3 若事件A与事件B互不相容,即AB=Ф,则P(A∪B)=P(A)+P(B)。 推论1 不可能事件的概率为0,即:P(Ф)=0。 推论2 P( )=1-P(A), 表示A的对立事件,即它们二者必有一事件发生但又不能同时发生。
例:袋中装有4只黑球和1只白球,每次从袋中随机地摸出1只球,并换入1只黑球。连续进行,问第三次摸到黑球的概率是多少? • 解: 记A为“第三次摸到黑球”,则 为“第三次摸到白球”。先计算P( )。 • 由于袋中只有1只白球,如果某一次摸到了白球,换入了黑球,则袋中只有黑球了。所以相当于第一、第二次都是摸到黑球,第三次摸到白球。注意这是一种有放回的摸球,样本点总数为53,有利场合数是42×1。故: P( )= , • 所以
3. 事件的独立性 定义 对事件A与B,若p(AB)=p(B)p(A),则称它们是统计独立的,简称相互独立。 例:已知袋中有6只红球, 4只白球。从袋中有放回地取两次球,每次都取1球。设 表示第i次取到红球。那么, 因此, ,也就是说,B1,B2相互独立。从题目条件看,这一结论是显然的。
第二节 抽样分布 一、抽样的基本概念 二、抽样分布 (一)重复抽样分布 (二)不重复抽样分布 三、大数定理与中心极限定理
一、抽样的基本概念 • 抽样涉及的基本概念有: • 总体与样本 • 样本容量与样本个数 • 总体参数与样本统计量 • 重复抽样与不重复抽样 • 这些概念是统计学特有的,体现了统计学的基本思想与方法。
总体和样本 1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N表示。 2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用n表示。 3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。
样本容量与样本个数 • 样本容量:一个样本中所包含的单位数,用n表示。 • 样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!)
总体 样本 参数 、2 p 平均数 标准差、方差 成数 统计量 S、 S2 P 总体参数和样本统计量 • 总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。 • 样本统计量:根据样本分布计算的指标。是随机变量。
重复(置)抽样与不重复(置)抽样 • 重复抽样与不重复抽样 • 重复抽样:例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2 • 考虑顺序时:样本个数=Nn=52=25 • 不考虑顺序时:样本个数=
重复(置)抽样与不重复(置)抽样 • 不重复抽样: • 例如从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2 • 考虑顺序时:样本个数 • 不考虑顺序时:样本个数
二、抽样分布 • 抽样分布的概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(主要求出样本平均数的期望与方差) • 包括以下内容 • 重置抽样分布 • 样本平均数的分布 • 样本成数的分布 • 不重置抽样分布 • 样本平均数的分布 • 样本成数的分布
某班组5个工人的日工资为34、38、42、46、50元。某班组5个工人的日工资为34、38、42、46、50元。 = 42 2 = 32 现用重置抽样的方法从5人中随机抽2个构成样本。共有52=25个样本。如右图。 重置抽样分布--样本平均数的分布
验证了以下两个结论: 抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用 表示。 重置抽样分布--样本平均数的分布
重置抽样分布--样本平均数的分布 • 由概率论知,如果总体是正态分布的,则样本平均数的抽样分布是如下正态分布 • 这是一个非常重要的结论,有广泛的应用。(请参见中心极限定理。)
重置抽样分布--样本成数的分布 • 总体成数p是指具有某种特征的单位在总体中的比重。成数是一个特殊平均数,设总体单位总数目是N,总体中有该特征的单位数是N1。设x是0、1变量(总体单位有该特征,则x取1,否则取0),则有: • 现从总体中抽出n个单位,如果其中有相应特征的单位数是n1,则样本成数是: • P也是一个随机变量,利用样本平均数的分布性质结论,即有:
不重置抽样分布 • 样本均值的分布性质: • 样本成数的分布性质
第三节 抽样的组织形式 • 本节主要内容: • 抽样估计效果的衡量与抽样组织形式 • 简单随机抽样 • 分层抽样 • 整群抽样 • 等距抽样 • 阶段抽样 • 不同抽样组织设计的比较
一、抽样估计效果的衡量与抽样组织形式 • 抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。 • 抽样平均误差受以下几方面的因素影响: • 一是总体的变异性,即与总体的标准差大小有关 • 二是样本容量 • 三是抽样方法。 • 四是抽样的组织形式 • 抽样的组织形式有如下几种:简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样
二、简单随机抽样 • 简单随机抽样,又称单纯随机抽样,是在总体单位中不进行任何有目的的选择,而是按照随机原则,纯粹偶然的方法抽取样本的技术。 • 适用情况: • 对调查对象很少了解; • 总体单位的排列没有秩序; • 抽到的单位比较分散时也不影响调查工作。
简单随机抽样可以采用抽签法和随机数表法。抽签法是将每个电话号码编号,或者直接将电话号码制成卡片,每个卡片代表一个电话号码,然后搅拌均匀,从中任意抽取,直到完成样本为止。随机数表是一系列随机产生的无规则排列的数字构成的表格。利用随机数表法进行抽样,也就是将调查总体进行编号,如果共有10000个个体,则每一个个体就可以对应一个五位数,从00001—10000,只需准备一张多于5位的随机数表,如有一张8位数的随机数表,我们可以利用其后5位。简单随机抽样可以采用抽签法和随机数表法。抽签法是将每个电话号码编号,或者直接将电话号码制成卡片,每个卡片代表一个电话号码,然后搅拌均匀,从中任意抽取,直到完成样本为止。随机数表是一系列随机产生的无规则排列的数字构成的表格。利用随机数表法进行抽样,也就是将调查总体进行编号,如果共有10000个个体,则每一个个体就可以对应一个五位数,从00001—10000,只需准备一张多于5位的随机数表,如有一张8位数的随机数表,我们可以利用其后5位。
现在随机地确定行数和列数作为随机的起点,如通过产生随机数,确定从第5行第3列为起点,从随机数表上找到第5行第3列的数,看其后5位,假设是07381,则编号为07381的就被抽取,然后在看下一行的数字的后5位数字,如果在00001—10000之间,就被抽取,否则继续,直到完成样本抽取为止。现在随机地确定行数和列数作为随机的起点,如通过产生随机数,确定从第5行第3列为起点,从随机数表上找到第5行第3列的数,看其后5位,假设是07381,则编号为07381的就被抽取,然后在看下一行的数字的后5位数字,如果在00001—10000之间,就被抽取,否则继续,直到完成样本抽取为止。
三、分层抽样 • 分层抽样是将总体单位按照一定的特征进行分层,然后在每一层里按照等比或不等比的方式采用简单随机抽样或系统抽样抽取样本单位,构成一个调查的样本。分层的原则是使层间的差异大、层内的差异小,通过分层抽样可以提高样本的代表性,减小抽样误差,提高了抽样的效率。
分层抽样—两点结论 分层抽样的抽样平均误差与组间方差无关,它决定于组内方差的平均水平。如下结论: • 抽样效果一般来说好于简单随机抽样。 • 在分组时应尽量扩大组间方差(组间差异),缩小组内方差(组内差异),从而减少抽样误差,提高抽样效果。
当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做“分层抽样”,其中所分成的各部分叫做“层”。当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做“分层抽样”,其中所分成的各部分叫做“层”。 问题 一个单位的职工500人,其中不到35岁的有125人,35到49岁的有280人,50岁以上的有95人。为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本。由于职工年龄与这项指标有关,试问:应用什么方法抽取? 能在500人中任意取100个吗? 能将100个份额均分到这三部分中吗? 分析:考察对象的特点是由具有明显差异的几部分组成。
问题 一个单位的职工500人,其中不到35岁的有125人,35到49岁的有280人,50岁以上的有95人。为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本。由于职工年龄与这项指标有关,试问:应用什么方法抽取?能在500人中任意取100个吗?能将100个份额均分到这三部分中吗? 解:(1)确定样本容量与总体的个体数之比100:500=1:5 (2)利用抽样比确定各年龄段应抽取的个体数,依次为 , 即25,56,19。 (3)利用简单随机抽样或系统抽样的方法,从各年龄段分别抽取25,56,19人,然后合在一起,就是所抽取的样本。
强调两点: 1.分层抽样应遵循以下要求: (1)分层:将相似的个体归人一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则 (2)分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比与这层个体数量与总体容量的比相等 2.分层抽样的步骤: (1)分层:按某种特征将总体分成若干部分 (2)按比例确定每层抽取个体的个数 (3)各层分别按简单随机抽样的方法抽取 (4)综合每层抽样,组成样本
例 一个地区共有5个乡镇,人口3万人,其中人口比例为3:2:5:2:3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法? 并写出具体过程 [分析]采用分层抽样的方法 解:因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而采用分层抽样的方法,具体过程如下: (1)将3万人分为5层,其中一个乡镇为一层 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本, 300×3/15=60,300×2/15=40, 300×5/15=100, 300×2/15=40,300×2/15=60, 因此各乡镇抽取人数分别为60人、40人、100人、40人、60 人 (3)将300人组到一起,即得到一个样本
三种抽样方法的比较 分层抽样的优点是: 使样本具有较强的代表性,并且抽样过程中可综合选用各种抽样方法,因此分层抽样是一种实用、操作性强、应用比较广泛的抽样方法
一个电视台在互联网上就观众对其某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下所示:一个电视台在互联网上就观众对其某一节目的喜爱程度进行调查,参加调查的总人数为12000人,其中持各种态度的人数如下所示: 很喜爱 喜爱 一般 不喜爱 2400 4200 3800 1600 打算从中抽取60人进行详细调查,如何抽取? (1)分层:按 …… 总体分成4层 (2)按比例 …… 确定每层抽取个体的个数 (3)各层分别按简单随机抽样的方法抽取 (4)将各层 ……人组到一起,即组成一个样本
在下列问题中,各采用什么抽样方法抽取样本较合适?在下列问题中,各采用什么抽样方法抽取样本较合适? 1、从20台电脑中抽取4台进行质量检测; 2、从2004名同学中,抽取一个容量为20的样本 3、某中学有180名教工,其中业务人员136名,管理人员20名,后勤人员24名,从中抽取一个容量为15的样本。
在下列问题中,各采用什么抽样方法抽取样本较合适?在下列问题中,各采用什么抽样方法抽取样本较合适? 1、从20台电脑中抽取4台进行质量检测; 2、从2004名同学中,抽取一个容量为20的样本 3、某中学有180名教工,其中业务人员136名,管理人员20名,后勤人员24名,从中抽取一个容量为15的样本。 简单抽样 系统抽样 分层抽样
4、某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体情况,需从他们中抽取一个容量为36的样本,则适合的抽取方法是 ( ) A.简单随机抽样 B.系统抽样 C.分层抽样 D.先从老人中剔除1人,然后再分层抽样 5、某校有500名学生,其中O型血的有200人,A型血的人有125人,B型血的有125人,AB型血的有50人,为了研究血型与色弱的关系,要从中抽取一个20人的样本,按分层抽样,O型血应抽取的人数为人,A型血应抽取的人数为人,B型血应抽取的人数为人,AB型血应抽取的人数为人
作业 1.对某单位1000名职工进行某项专门调查,调查的项目与职工任职年限有关,人事部门提供了如下资料: 试利用上述资料设计一个抽取一个容量为50的样本的抽样方法 2.某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体情况,需从他们中抽取一个容量为36的样本,设计一个分层抽样的抽取方法
3. 某市有300所小学,共有240000名学生。这些小学分布在全市5个行政区中。其中,重点小学有30所,一般小学有240所,比较差的小学有30所。现在要从全市小学生中抽取1200名进行调查,以了解全市小学生学习情况。请设计一个抽样方案。
四、整群抽样 • 定义:又称集团抽样。将总体各单位分为若干群,然后从中抽取部分群,对中选群的所有单位进行全面调查。
整群抽样 一、整群抽样的基本概念 二、群规模相等条件下的估计 三、 群规模不相等条件下的估计
一、整群抽样的基本概念 • 问题的提出 • 整群抽样的定义 • 整群抽样的特点 • 群的划分 • 群规模简介
实际问题的提出: 一个新建的居民区由近百幢居民楼组成,其中住户总数达数千户。欲用抽样调查方法估计该居民区现有的电话拥有率。 a.一种是用简单随机抽样,抽取一定样本量的住户,譬如说共抽取n=250户进行调查,然后用简单估计方法对全居民区的电话拥有率进行估计。 b.另一种方法是按一定方法抽取一定数量的居民楼,譬如说15幢或20幢楼,然后对这些楼中的每个住户都进行调查,根据调查结果来估计整个居民区的电话拥有率。