730 likes | 985 Views
第二章 统计量及其分布. 【 教学目的与要求 】. 通过本章的教学,使学生理解数理统计的基本概念,熟悉三大抽样分布;熟练掌握样本均值、样本方差、样本矩和样本经验分布函数的计算;熟练掌握正态总体样本均值与样本方差的分布及非正态总体样本均值与样本方差的渐近分布;理解次序统计量的概念,掌握其概率分布;了解分位数的概念并会查表计算. 第二章 统计量及其分布. 第一节. 第三节. 第四节. 统计量. 第二节. 对总体的初步认识. 抽样分布. 总体与样本. 第一节 总体与样本. 一、总体与总体分布. 研究对象的全体称为 总体. 构成总体的每一个元素称为 个体.
E N D
第二章 统计量及其分布 【教学目的与要求】 通过本章的教学,使学生理解数理统计的基本概念,熟悉三大抽样分布;熟练掌握样本均值、样本方差、样本矩和样本经验分布函数的计算;熟练掌握正态总体样本均值与样本方差的分布及非正态总体样本均值与样本方差的渐近分布;理解次序统计量的概念,掌握其概率分布;了解分位数的概念并会查表计算.
第二章 统计量及其分布 第一节 第三节 第四节 统计量 第二节 对总体的初步认识 抽样分布 总体与样本
第一节 总体与样本 一、总体与总体分布 研究对象的全体称为总体. 构成总体的每一个元素称为个体. 总体中所包含的个体的个数称为总体容量. • 总体可以是具体事物的集合,如一批产品;也可以是关于事物的度量数据集合,如长度测量. • 总体可以包含有限个个体,也可以包含无限个个体。有限总体在个体相当多的情况下,可以作为无限总体进行研究. • 总体中的个体,应当有共同的可观察的特征.该特征与研究目的有关.
总体 个体 特征 一批产品 每件产品 等级 一批灯泡 每个灯泡 寿命 一年的日平均气温 每天日平均气温 度数 数轴上某一线段 线段中每一点 坐标 一批彩票 每张彩票 号码 一、总体与总体分布 【例如】 人们感兴趣的是总体的某一个或几个数量指标的分布 情况.每个个体所取的值不同,但它按一定规律分布.
第一节 总体与样本 一、总体与总体分布 由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性.从而可以把这种数量指标看作一个随机变量X,因此随机变量X的分布就是该数量指标在总体中的分布. 总体就可以用一个随机变量或其概率分布来描述.因此在理论上可以把总体与概率分布等同起来. 定义 数理统计学中称随机变量(或向量)X为总体,并把随机变量(或向量)的分布称为总体分布. 鉴于此,常用随机变量的记号或用其分布函数表示总体,如记总体X或总体F(x).
总体 某批 灯泡的寿命 一、总体与总体分布 【例如】研究某批灯泡的寿命时,关心的数量指标就是寿命,那么,此总体就可以用随机变量X表示,或用其分布函数F(x)表示. 寿命总体 X 是 指数分布总体 寿命X 可用一概率 (指数)分布来刻划
统计中,总体这个概念的要旨是总体就是一个概率分布.统计中,总体这个概念的要旨是总体就是一个概率分布. 第一节 总体与样本 一、总体与总体分布 类似地,在研究某地区中学生的营养状况时,若关心的数量指标是身高和体重,我们用X 和Y 分别表示身高和体重,那么此二维总体就可用二维随机向量(X,Y)或其联合分布函数 F(x,y)来表示.
二、样本与样本分布 总体分布一般是未知,或只知道是包含未知参数的分布,为推断总体分布及各种特征,按一定规则从总体中抽取若干个体进行观察试验,以获得有关总体的信息,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量. 【例如】从国产轿车中抽5辆进行耗油量试验,抽到哪5辆是随机进行的. • 选取样本是为了从样本的特征对总体特征做出估计和推断; • 抽样必须尽可能多地反映总体的特征; • 最常用的一种抽样叫作“简单随机抽样”,其特点: • 1.代表性: 样本分布与总体分布相同; • 2.独立性: 抽样时互不影响.
二、样本与样本分布 一旦取定一组样本 ,得到 个具体的数 ,称为样本的一次观察值,简称样本值. 【例4.1.3】书P230 说明: 1、样本量较大时,采用分组整理,即用分组样本观测值; 2、在分组中习惯上包括组的右端点,而不包括组的左端点; 3、获得简单随机样本的两种方法: 利用“随机数表”和计算机随机产生.
二、样本与样本分布 由简单随机抽样得到的样本称为简单随机样本,它可以用与总体独立同分布(简记为iid)的n个相互独立的随机变量表示 若总体的分布函数为F(x)、概率密度函数为p(x),则其简单随机样本的联合分布函数为 其简单随机样本的联合概率密度函数为 注:简单随机样本是应用中最常见的情形,今后,当说到 “是取自某总体的样本”时,若不特别说明, 就指简单随机样本.
总体(理论分布) ? 样本 样本值 三、总体、样本、样本值的关系 事实上我们抽样后得到的资料都是具体的、确定的值.如我们从某班大学生中抽取10人进行数理统计的测试,得到10个成绩,它们是样本取到的值而不是样本.我们只能观察到随机变量取的值而见不到随机变量. 样本是联系二者的桥梁 总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.
二 四 五 一 三 次序统计量 充分统计量与完备统计量 统计量的概念 样本矩 经验分布函数 第二节 统计量
一、统计量的概念 样本是我们进行分析和推断的起点,但实际上我们并不直接用样本进行推断,而需对样本进行“加工”和“提炼”,将分散于样本中的信息集中起来,为此引入统计量的概念. 其中是 的连续函数. 如果中不含有未知参数,称 为统计量. 这种不含任何未知参数的样本的函数称为统计量.它是完全由样本决定的量.
【例】 如 未知, 一、统计量的概念 为X的一个样本,则 均为统计量 不是统计量 若 已知, 未知,为 的一个样本,则 均为统计量
一、统计量的概念 解
二、样本矩 它反映了总体均值的信息 样本均值 样本方差 它反映了总体 方差的信息 它反映了总体k 阶矩的信息 样本标准差 样本k阶原点矩 它反映了总体k阶 中心矩的信息 样本k阶中心矩
二、样本矩 它反映了总体变异系数C的信息 样本变异系数 样本偏度 它反映了总体 偏度的信息 样本峰度 它反映了总体 峰度的信息
二、样本矩 【例4.2.3】P251(分组样本的近似计算) 说明:
设 是取自总体X的样本,将其从小到大排序得到 . 定义 :不论 取怎样的一组观测值, 总取 为其观测值,称 为第i个次序统计量,从而有 , 分别称为样本的最小、最大次序统计量(样本极小值与样本极大值). 注: 样本 独立同总体分布,但 既不独立又不同分布. 三、次序统计量 【例4.3.1】P264
四、经验分布函数 • 样本直方图可以形象地去描述总体概率密度函数的大致形状; • 经验分布函数可以用来描述总体分布函数的大致形状.
四、经验分布函数 • Fn(x)的图形是累积频率(是指相应的组频率之和)曲线; • ; • 它是跳跃上升的一条阶梯曲线.若观测值不重复,跃度为1/n,若重复,按1/n的倍数跳跃上升. 解:将数据由小到大排列为 -4<0<2=2<2.5=2.5=2.5<3<3.2<4 其经验分布函数为:
四、经验分布函数 • 对每一个固定的x, 是事件“ ”发生的频率,当n固定时, 是样本的函数,是一个随机变量,且 • (格里汶科定理)定理4.1.1 设 取自总体分布函数为F(x)的样本, 是经验分布函数,有 • 注:此定理表明,当n相当大时,经验分布函数是总体分布函数的一个良好的近似.
五、充分统计量 • 【例】为研究某个运动员的打靶命中率,我们对该运动 • 员进行测试,观测其10次,发现除第三、六次未命中外,其 • 余8次都命中.这样的观测结果包含了两种信息: • 打靶10次命中8次; • (2) 2次不命中分别出现在第3次和第6次打靶上. 第二种信息对了解该运动员的命中率是没有什么帮助的.一般地,设我们对该运动员进行n 次观测,得到x1, x2,…, xn,每个xj取值非0即1,命中为1,不命中为0.令T = x1+…+xn,T为观测到的命中次数.在这种场合仅仅记录使用T 不会丢失任何与命中率 有关的信息,统计上将这种“样本加工不损失信息”称为“充分性”.
五、充分统计量 样本x=(x1,x2,…,xn) 有一个样本分布F(x),这个分布包含了样本中一切有关 的信息. 统计量T =T (x1,x2,…,xn) 也有一个抽样分布FT(t) ,当我们期望用统计量T 代替原始样本并且不损失任何有关 的信息时,也就是期望抽样分布FT(t) 像F(x) 一样概括了有关 的一切信息,这即是说在统计量T 的取值为t 的情况下样本x 的条件分布F(x|T=t) 已不含 的信息,这正是统计量具有充分性的含义.
五、充分统计量 定义设x1, x2, …, xn是来自某个总体的样本,总体分布函数为F( x ;),统计量 T = T(x1, x2, …, xn) 称为 的充分统计量,如果在给定T 的取值后,x1, x2,…, xn 的条件分布与 无关.
第三节 对总体的初步认识 一、从样本去认识总体 样本来自总体,因此样本中必包含了总体的信息,我们希望通过样本值来获得有关总体分布类型或有关总体特征值的信息.然而样本观测值是一组数,粗看可能是杂乱无章的,必须对它进行整理与加工后才会显示出规律. 整合样本信息的工具——统计量;统计图. 对于统计量我们已给出了详细的介绍,在此重点介绍统计图.
统计量 图分析法 1 2 对样本观测值进行加工整理 的方法 4 样本直方图 3 茎叶图 Q-Q 图 和 P-P 图 箱线图 第三节 对总体的初步认识
【例4.1.4】 二、图分析法 样本直方图 样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表.
二、图分析法 频数频率分布表及其图示
二、图分析法 频数频率分布表及其图示
【例4.1.5】 二、图分析法 频数频率分布表及其图示
采用分组方法进行整理,具体步骤如下: 方法1 分组数的确定方法 方法2
样本直方图 茎叶图(枝叶图) 1、样本直方图 当总体是连续随机变量时,常可用图形表示.
【例4.1.7】 2、茎叶图 茎叶图是另一种数据整理用的图形,在这张图上保留了原始数据更多的信息——茎叶图不仅给出落在各区间的样本观测值的频数,还给出了该区间中每一个具体的观测值,从而可为我们提供有关总体的更多信息.
2、茎叶图 • 首先,将茎按从小到大的次序写在一条竖线的左边; • 其次,将每个数据的叶写在相应的茎的竖线的右边; • 最后,将每一行的叶也按从小到大的次序排列,并添上单位, • 这就构成了一张茎叶图. 我们可以将茎叶图看成一张转了90°的直方图,只是每组区间为[26,27)、[27,28)、[28,29)、 [29,30)、[30,31)而已. 从右图中可看出此分布是对称的,中间高、两边低,从而可设想总体分布可能正态. 【例4.1.7】
【例4.1.8】 2、茎叶图
样本最大次序统计量与样本最小次序统计量之差称为样本极差,简称极差,常用R表示.样本最大次序统计量与样本最小次序统计量之差称为样本极差,简称极差,常用R表示. 如果样本容量为n,则样本极差 • 表示样本取值范围的大小; • 反映了总体取值分散与集中的程度.一般说来,总体标准差的取值较大,从中取出的样本的极差也会打一些; • 极差常在小样本 的场合使用; • 利用极差可估算标准差; • 极差易受个别异常值(又称离群值)的干扰. 3、箱线图(box plot) 【例4.3.4】P271;【例4.3.5】P272
50% 50% md 3、箱线图(box plot) (1)中位数(median) 1)排序后处于中间位置上的变量值; 2) 不受极端值的影响; 3) 主要用于顺序数据,也可用数值型数据,但不能 用于分类数据; 4) 各变量值与中位数的离差绝对值之和最小,即 5) 可反映总体的位置特征
3、箱线图(box plot) 位置确定 数值确定
3、箱线图(box plot) (2) P分位数
25% 25% 25% 25% Q1 md Q3 3、箱线图(box plot) (3)四分位数(quartile) 1) 排序后处于25%和75%位置上的值 2) 不受极端值的影响 3) 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据 方法2:较准确算法 方法1:定义算法
3、箱线图(box plot) • 用于显示未分组的原始数据的分布; • 由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成; • 绘制方法 • 首先找出一组数据的5个特征值,即最大值、最小值、中位数md和两个四分位数(下四分位数Q1和上四分位数Q3 ) • 连接两个四分位数画出箱子,再将两个极值点与箱子相连接 • 该箱线图也称为Median/Quart./Range箱线图
中位数 最小值 最大值 X X (1) (n) Median/Quart./Range箱线图 Q Q m 1 d 1 3、箱线图(box plot) • 中心位置; • 散布情况; • 偏度; • 离群值; • 可将几个同类样本数据画在同一坐标轴上进行行比较.
Q 中位数 Q 1 3 中位数 Q Q 中位数 Q Q 3 1 3 1 左偏分布 对称分布 3、箱线图(box plot) 右偏分布 不同分布的箱线图