660 likes | 1.13k Views
统计学导论. 湖南大学 金融与统计学院. 第三章 数据分布特征的描述. 第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度 ( 选学 ). 第一节 统计变量集中趋势的测定 (袁卫等 《 统计学 》P24”2.2 分布集中趋势的测度”). 一、测定集中趋势的指标及其作用 二、数值平均数 三、众数与中位数 四、切尾均值. 一、测定集中趋势的指标及其作用.
E N D
统计学导论 湖南大学 金融与统计学院
第三章 数据分布特征的描述 第一节 统计变量集中趋势的测定 第二节 统计变量离散程度的测定 第三节 变量分布的偏度与峰度(选学)
第一节 统计变量集中趋势的测定(袁卫等《统计学》P24”2.2分布集中趋势的测度”) 一、测定集中趋势的指标及其作用 二、数值平均数 三、众数与中位数 四、切尾均值
一、测定集中趋势的指标及其作用 • 集中趋势(Central tendency):是指较大和较小的观测值出现的频率比较低,大多数观测值密集分布在中心附近,使得全部数据呈现出向中心聚集或靠拢的态势。
测度集中趋势的指标 • 测度集中趋势的指标有两大类: • 数值平均数——是根据全部数据计算得到的代表值,主要有算术平均数(均值)、调和平均数及几何平均数; • 位置代表值——是根据数据所处位置直接观察、或根据与特定位置有关的部分数据来确定的代表值,主要有众数和中位数、以及四分位数、十分位数、百分位数等。 • 此外,还有切尾均值等。
测定集中趋势指标的作用 1.反映变量分布的集中趋势和一般水平。 • 如,用平均工资了解职工工资分布的中心,反映职工工资的一般水平。 2.可用来比较同一现象在不同空间或不同阶段的发展水平。 • 消除了总体规模大小的影响,具有可比性; • 在一定程度上使偶然因素的影响相互抵消。
测定集中趋势指标的作用 3.可用来分析现象之间的依存关系。 • 如,研究劳动者的文化程度与收入的关系。 4.平均指标也是统计推断中的一个重要统计量,是进行统计推断的基础。
二、数值平均数 (一)算术平均数(均值,袁卫等《统计学》P26-28) • 算术平均数:一组数据的总和除以这组数据的项数所得的结果。 • 算术平均数是最常用的数值平均数。 根据所掌握的资料不同,算术平均数又分为两种:简单算术平均数和加权算术平均数。
1.简单算术平均数 • 简单算术平均数:把每项数据直接加总后除以它们的项数。 • 通常用于对未分组的数据计算算术平均数。 • 计算公式:(袁卫等《统计学》P26)
分组 例3-1假设某工作队有20个队员,男女各10人,他们的年龄如表3-1所示。求平均年龄。 解:采用简单算术平均法计算,全体队员的平均年龄为(周岁): • 对于分组数据不能简单平均!因为各组变量值的次数不等! 若采用简单平均: 返回
2.加权算术平均数 • 正确的算式应该是: • 加权算术平均数的一般公式:(袁卫等《统计学》P27) • 加权:是指为了体现各变量值轻重不同的影响作用,对各个变量值赋予不尽相同的权数(fi)。
权数(fi,也称权重) • 权数——指在计算总体平均数或综合水平的过程中对各个数据起着权衡轻重作用的变量。 • 权数可以是绝对数形式,也可以是比重形式(如频率)。 • 事实上,比重形式的权数更能够直接表明权数权衡轻重的实质,因为影响作用的大小本来就是相对而言的。 • 当权数完全相等(f1 =f2 =…= fn)时,加权算术平均数就成了简单算术平均数。
3.由组距数列计算算术平均数 例3-2对某品牌100个节能灯泡的使用寿命的测试数据如表3-3所示。试计算这批灯泡的平均使用寿命。 解:平均使用寿命为: 要点: • 各组变量值用组中值来代表。 • 假定条件是各组内数据呈均匀分布或对称分布。
4.对相对数求算术平均数(袁卫等《统计学》没有!)4.对相对数求算术平均数(袁卫等《统计学》没有!) • 当对一系列相对数进行平均时,由于各个相对数的对比基础不同,采用简单算术平均通常不合理,需要进行适当的加权。 • 看一个例子:
例3-3某公司有三个下属企业,本期各企业的商品流通费用率和商品销售额数据如表3-4所示,试求该公司这三个下属企业的平均流通费用率。例3-3某公司有三个下属企业,本期各企业的商品流通费用率和商品销售额数据如表3-4所示,试求该公司这三个下属企业的平均流通费用率。 (流通费用率=流通费用/商品销售额×100%) 解: • 权数的选择必须符合该相对数本身的计算公式。 • 算术平均时,权数应为该相对数的分母指标。
5.算术平均数的主要数学性质 (1)算术平均数与变量值个数的乘积等于各个变量值的总和。【教材上没提】 (2)各变量值与算术平均数的离差之总和等于零。 (3)各变量值与算术平均数的离差平方之总和为最小。 问题:如果算术平均数为加权算术平均形式,那么上述三个表达式各是什么?
补充:算术平均数的主要数学性质 (4)若为a、b为常数,y=a+bx,则有: (5)若z=x+y,则有:
(二)调和平均数(Harmonic mean)(袁卫等《统计学》没有!) • 调和平均数也称为倒数平均数。它是各变量值的倒数(1/xi)的算术平均数的倒数。 • 其计算公式为: • 上式也叫加权调和平均数。当权数mi(i =1, 2,…,n )完全相等时,加权调和平均数就成了简单调和平均数(表达式?)。
社会经济统计中所应用的调和平均数通常是加权算术平均数的变形。社会经济统计中所应用的调和平均数通常是加权算术平均数的变形。 • 已知各组变量值 xi 和(xi fi)而缺乏 fi时,加权算术平均数可以变形为调和平均数形式来计算。 • 换句话,当被平均的变量(xi)是相对数(或平均数),而且已知的数据是变量值(xi)以及分子指标(xi fi)时,应采用分子指标对被平均的变量值加权调和平均来计算平均数。 • 看一个例子:
例3-4在表3-4中,如果未给出各个子企业的商品销售额,而是给出了各个子企业的流通费用分别为256、475、480万元。试计算这三个企业的平均流通费用率。例3-4在表3-4中,如果未给出各个子企业的商品销售额,而是给出了各个子企业的流通费用分别为256、475、480万元。试计算这三个企业的平均流通费用率。 解:
(三)几何平均数(Geometric mean) • 几何平均数:n个变量值连乘积的n次方根。【袁卫等《统计学》P29将其记作“G”】 • 简单几何平均数 • 加权几何平均数
(三)几何平均数(Geometric mean) • 几何平均数适用于各个变量值之间存在连乘积关系的场合。 • 主要用于计算现象的平均发展速度(见袁卫等《统计学》P30及P259); • 也适用于对某些具有环比性质的比率求平均(见袁卫等《统计学》P29)。 • 看一个例子:
例3-5某企业产品的加工要依次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88%、85%、90%、92%、96%,试求这五道工序的平均合格率。例3-5某企业产品的加工要依次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为88%、85%、90%、92%、96%,试求这五道工序的平均合格率。 解: 本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。 所以,所求的平均合格率应为:
f(x) MO x 三、众数与中位数 (一)众数(Mode)(见袁卫等《统计学》P24) • 众数是一组数据中出现频数最多、频率最高的变量值,常用 M0 表示。 • 如:表3-2中年龄的众数值MO=25。
f(x) MO x • 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量。 • 可以用来测度定性变量的集中趋势; • 例:销售量最大的产品颜色是“白色”,则有M0=“白色” • 也可以度量定量变量的集中趋势。 • 从分布曲线的角度看,众数就是变量分布曲线的最高峰所对应的变量值。
Mo 组距数列中众数的确定 • 先找到众数组。 • 在等距数列中,众数组就是次数最多的组; • 在异距数列中,众数组应是频数密度最大的组。 • 然后根据众数组与其相邻两组的次数差来推算。 • 其近似公式为: (见袁卫等《统计学》P24) 下限公式: 上限公式: 例:见袁卫等《统计学》P24
f(x) 50% 50% x (二)中位数(Median) • 中位数是将数据由小到大排列后位置居中的数值。(见袁卫等《统计学》P25) Me
由未分组数据计算中位数 • 若数据项数是奇数,则按大小排序后正好位于中间的数值就是中位数。 • 如5人收入为: 1200,1450,1500,1600,2000元,则收入的中位数 Me =1500。 • 若数据项数是偶数,则按大小排序后居中两个数值的平均数为中位数。 • 如6人收入为: 1200,1450,1500,1600, 1800,2000元,则收入的中位数 Me =1550。
由组距数列计算中位数 • 先确定中位数组,即中间位置(用Σf/2来计算)所在的组。 • 假定中位数组内次数均匀分布(次数与变量值的区间大小成比例),则可以近似推算中位数的值。 • 计算公式为: 例 见袁卫等《统计学》P25 下限 公式: 其中SMe-1为变量值小于中位数组下限的各组累计次数。 上限 公式: 其中SMe+1为变量值大于中位数组上限的各组累计次数。
四分位数、十分位数和百分位数 • 四分位数:是将数据由小到大排序后,将全部数据4等分的三个数值。 • 十分位数:是将数据由小到大排序后,将全部数据10等分的数值。 • 百分位数:是将数据由小到大排序后,将全部数据100等分的数值。 • 显然,中位数也就是第2个四分位数、第5个十分位数、第50个百分位数。 • 分位数与其它指标结合,可以更详细地反映数据的分布特征。【计算方法见袁卫等《统计学》P26】
xmin Q1 Me Q3xmax 箱线图(boxplot) • 箱线图:也叫盒形图,由一组数据的最小值(xmin)、第一四分位数(Q1)、中位数(Me)、第三四分位数(Q3)、最大值(xmax)等五个数值来绘成。【见袁卫等《统计学》P42】 • 利用箱线图可以观察数据分布的范围、中心位置和对称性等特征,还可以进行多组数据分布的比较。
下四分位数 170.25 中位数 182 上四分位数 197 最小值 141 最大值 237 140 150 160 170 180 190 200 210 220 230 240 某电脑公司销售量数据的箱线图 未分组数据—单批数据箱线图(例题分析)
中位数 Q Q 中位数 Q Q 中位数 Q Q U L U L U L 左偏分布 对称分布 右偏分布 分布的形状与箱线图 不同分布的箱线图
未分组数据—多批数据箱线图(例题分析) 【例】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征.
8门课程考试成绩的箱线图 未分组数据—多批数据箱线图(例题分析)
未分组数据—多批数据箱线图(例题分析) 105 95 85 75 65 55 Min-Max 45 25%-75% 学生1 学生3 学生5 学生7 学生9 学生11 Median value 学生2 学生4 学生6 学生8 学生10 11名学生8门课程考试成绩的箱线图
(三)众数、中位数和算术平均数的比较【见袁卫等《统计学》P31-33,有补充】(三)众数、中位数和算术平均数的比较【见袁卫等《统计学》P31-33,有补充】 1.算术平均数综合反映了全部数据的信息,众数和中位数由数据分布的特定位置所确定。 2.算术平均数和中位数在任何一组数据中都存在而且具有唯一性;但计算和应用众数有两个前提条件:(1)数据项数众多;(2)数据具有明显的集中趋势。 3.算术平均数只能用于定量(数值型)数据,中位数适用于定序数据和定量数据,众数适用于所有形式(类型、计量层次)的数据。
4.算术平均数受数据中极端值的影响,而众数和中位数都不受极端值的影响。4.算术平均数受数据中极端值的影响,而众数和中位数都不受极端值的影响。 5.算术平均数可以推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。
x< Me< Mo x = Me = Mo Mo<Me<x 算术平均数和众数、中位数的数量关系 • 在左偏分布中,一般有: 均值<Me<Mo • 在对称分布中,三者相等: 均值 = Me =Mo • 在右偏分布中,一般有:Mo <Me <均值 • 皮尔逊经验公式:在轻微偏态时,三者的近似关系:
四、切尾均值 • 为了排除极端值的干扰,可计算切尾均值,即去掉数据中最大和最小的若干项数值后计算的均值。 • 如:歌咏比赛和体操比赛中,经常要去掉一个最高分、去掉一个最低分,再计算选手的平均得分,这就是切尾均值的应用。 • 切尾均值的计算公式: 例袁卫等《统计学》P30-31 • 式中,n为观察值的个数;为切尾系数;0≤<1/2,x(1)、x(2)、…、x(n)是各观察值由小到大排序后的结果。 • 显然,如果是去掉一个最高分和一个最低分,则=1/n;切尾均值是结合了均值利用数据信息充分和中位数不受极端值影响两方面优点而形成的新型统计量。
第二节 统计变量离散程度的测定(袁卫等《统计学》P33“2.3分布离散程度的测度”) 一、测定离散程度的指标及其作用 二、极差、四分位差(内距)和平均差 三、方差和标准差 四、离散系数 五、异众比率
一则笑话 • 如果你一只脚放在摄氏 1 度的水里,另一只脚放在摄氏 79 度的水里,平均水温 40 度,你一定感觉很舒服 ? • 这个例子说明,只了解变量的集中趋势或平均水平是不够的!还必须对变量的离散程度有一个基本判断。
一、测定离散程度的指标及其作用 • 离散程度:是指一组统计数据偏离其分布中心的程度。 • 测定离散程度的指标也称为变异指标。
测定离散程度的指标的作用(袁卫等《统计学》没有!)测定离散程度的指标的作用(袁卫等《统计学》没有!) 1.说明数据的分散程度,反映变量的稳定性、均衡性。 • 数据之间差异越大,变量的稳定性或均衡性越差。 2.衡量平均数的代表性。 • 离散程度越大,平均数的代表性就越小。 3.统计推断的重要依据。 • 变异指标也用于判别统计推断的前提条件是否成立,变异指标越小,统计推断的效果越好。
测度离散程度的指标 • 常用的变异指标(测度离散程度的指标)有两类: • 一类是用绝对数或平均数表示的,主要有极差、四分位差、平均差、方差和标准差等,这类变异指标的计量单位和数据的计量单位相同(方差除外); • 另一类是用相对数表示的,主要有离散系数、异众比率等,这类变异指标没有量纲。
二、极差、四分位差和平均差 (一)极差(Range) • 极差是一组数据的最大值(xmax)与最小值(xmin)之差,通常用 R 表示。 • 对于总体数据而言,极差也就是变量变化的范围或幅度大小,故也称为全距。 • 在组距数列中,极差≈最高组的上限-最低组的下限。 • 缺点:极差未考虑数据的中间分布情况,不能充分说明全部数据的差异程度。
(二)四分位差(quartile deviation) • 四分位差:也叫内距(inter- quartile range),是第3四分位数(Q3)与第1四分位数(Q1)之差,常用Qd表示。计算公式为: • 四分位差实质上是两端各去掉四分之一的数据以后的极差,表示占全部数据一半的中间数据的离散程度。 • 四分位差越大,表示数据离散程度越大。 • 四分位差在一定程度上是对极差的一种改进,避免了极端值的干扰。但它对数据差异的反映仍然不充分。 • 四分位差是一种顺序统计量,适用于定序数据和定量数据。尤其是当用中位数来测度数据集中趋势时,数据的离散程度特别适合用四分位差来描述。
(三)平均差(Average Deviation)(袁卫等《统计学》没有!) • 平均差:变量的各个数据与其均值的离差绝对值的算术平均数,反映各个数据与其均值的平均差距,通常以A.D表示。计算公式为: • 未分组数据: • 已分组数据: • 平均差含义清晰,能全面地反映数据的离散程度。但取离差绝对值进行平均,数学处理上不够方便,在数学性质上也不是最优的。
三、方差和标准差 1. 方差和标准差的计算 • 方差(Variance)是各个数据与其均值的离差平方的算术平均数。 • 总体方差(用σ2表示)的计算公式为: • 未分组数据: • 分组数据: • 袁卫等《统计学》P36在计算总体离散系数时,提到总体标准差σ,但在前文没交代σ2的计算公式。
三、方差和标准差 1. 方差和标准差的计算 • 样本方差(用s2表示)的分母应为(n-1),计算公式为: • 未分组数据: • 分组数据: • 见袁卫等《统计学》P34的文字说明。