860 likes | 955 Views
第四章 调查资料的静态分析 ---- 描述性分析. 通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征,但认知程度还比较肤浅,反映的精确度不够,为此,我们要使用各类代表性的数量特征值来准确地描述这些数据。. 观察数据集 01 与数据集 02 ,你能看出他们有什么区别?. 中国历年主要宏观经济指标数据集. 1995 年世界各国基本情况数据集. 前者以时间为序列示被描述的对象;后者是按国名顺序列示被描述的对象,而时间都固定在 1995 年。.
E N D
第四章 调查资料的静态分析 ----描述性分析
通过调查获得、经过整理后展现的数据已经可以反映出被研究对象的一些状态与特征,但认知程度还比较肤浅,反映的精确度不够,为此,我们要使用各类代表性的数量特征值来准确地描述这些数据。
观察数据集01与数据集02 ,你能看出他们有什么区别? 中国历年主要宏观经济指标数据集 1995年世界各国基本情况数据集 前者以时间为序列示被描述的对象;后者是按国名顺序列示被描述的对象,而时间都固定在1995年。
我们把以时间为序排列的数据称为时间序列数据,而在同一时间层面上显示的数据称为截面数据。这两类数据在计算描述统计量和构建评价模型时都有所区别。 截面数据(cross-sectional data)是在相同或近似相同的时间点上收集的数据,它所描述的是现象在某一时刻或某一时间段的变化情况,如2003年我国各地区的人口数、2003年我国各地区的国内生产总值数据都属截面数据。 时间序列数据(time series data)是在不同时间上收集到的数据,它所描述的是现象随时间而变化的情况,如1952—2006年我国各年的人口总数、1952—2006年我国历年国内生产总值数据都属时间序列数据。
第四章 静态分析 在对单变量截面数据进行分析时,我们主要用的方法是描述性分析,具体包括四个方面:集中趋势、离散程度、绝对规模、相对关系。 本章中将具体讨论这些方法的运用,这就是第四章的主要内容。 第五章 动态分析 在对单变量时间序列数据进行分析时,主要是第五涨的动态分析方法… …
总量指标(绝对规模) 相对指标(相对关系) 平均指标(集中趋势) 变异指标(离散趋势) 静态分布 统计指标 加工 整理 水平指标(绝对规模) 速度指标(相对变化) 因素分析(趋势预测) 动态趋势 原始数据
第一节 集中趋势的描述分析 定义 集中趋势(Central Tendency) 反映的是一组数据向某一中心值靠拢的倾向,如“在中心附近的数据数目较多,而远离中心的较少。 ” 对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。根据取得这个中心值的方法不同,我们把测度集中趋势的指标分为两类:数值平均数和位置平均数。
一、数值平均数 数值平均数是同质总体内各个个体某一数量标志在一定时间、地点、条件下所达到的一般水平,是反映现象总体综合数量特征的重要指标,又称为平均指标。 研究总体中各个个体的某个数量标志是各不相同的。 如某个生产小组10名工人由于是按计件取酬的,所以他们的工资各不相同,分别是1000元、1480元、1540元、1600元、1650元、1650元、1740元、1800元、1900元、2500元。要说明这10名工人的工资的一般水平,显然不能用某一个工人的工资作代表,而应该计算他们的平均工资,用它作为代表值。
数值平均数有三种形式:算术平均数、调和平均数和几何平均数。数值平均数有三种形式:算术平均数、调和平均数和几何平均数。 1、算术平均数 算术平均数(Arithmetic mean)是总体中各个体的某个数量标志的总和与个体总数的比值,一般用符号表示。算术平均数是集中趋势中最主要的测度值。 它的基本公式是:
由于所掌握的资料形式不同,算术平均数可以推导出两组公式:由于所掌握的资料形式不同,算术平均数可以推导出两组公式: 1.1简单算术平均数 根据未经分组整理的原始数据计算算术平均数。设一组数据为 ,则: 公式4.1 【例4.1】 有五名学生的身高分别为1.65、1.69、1.70、1.71和1.75米,求他们的平均身高。 (米)
1.2 加权算术平均数 根据分组整理的数据计算平均数。设原始数据被分成n组,各组的变量值分别为 各组变量值出现的次数分别为 , , 公式4.2 计算加权算术平均数运用的变量数列资料有两种:单项变量数列和组距变量数列。单项变量数列直接对各组变量值进行加权平均计算;组距变量数列需要先求出各组变量值的组中值,然后,对组中值进行加权平均计算。
【4.2】根据某车间200名工人加工零件的资料,计算平均每个工人的零件生产量,资料见表 表4.1 某车间职工加工零件平均数计算 【解】根据公式(4.2),得: (个)
权数既可以用绝对数表示,也可以用相对数(比重)来表示。因此,加权算术平均数也可用以下形式:权数既可以用绝对数表示,也可以用相对数(比重)来表示。因此,加权算术平均数也可用以下形式: (4.4) 【解】根据公式(4.4),得: = 45×0.1+55×0.2+65×0.4+75×0.25+85×0.05=64.5(个)
注意:从以上计算过程可以看出,次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。注意:从以上计算过程可以看出,次数f的作用:当变量值比较大的次数多时,平均数就接近于变量值大的一方;当变量值比较小的次数多时,平均数就接近于变量值小的一方。可见,次数对变量值在平均数中的影响起着某种权衡轻重的作用,因此被称为权数。 但是,如果各组的次数(权数)均相同时,即: 时,则权数的权衡轻重作用也就消失了。这时,加权算术平均数会变成简单算术平均数。即: (4.3)
1.3 算术平均数的数学性质 算术平均数在统计学中有着重要的地位,它是进行统计分析和统计推断的基础,下面两个有关算术平均数的命题是其两个重要的数学性质。 (1)各变量值与其平均数离差之和等于零,即: (4.5) (2)各变量值与其平均数离差平方之和等于最小值,即: (4.6)
2.调和平均数 在统计分析中,有时会由于种种原因没有频数的资料,只有每组的变量值和相应的标志总量。这种情况下就不能直接运用算术平均方法来计算了,而需要以迂回的形式,即用每组的标志总量除以该组的变量值推算出各组的单位数,才能计算出平均数,我们可以用调和平均的方法完成这个计算。
2.1 定义 调和平均数(harmonic mean)是各变量值倒数的算术平均数的倒数。由于它是根据变量值倒数计算的,所以又称 作倒数平均数,通常用 表示。根据掌握的资料不同,调和平均数可分为简单调和平均数和加权调和平均数两种。
2. 2 简单调和平均数 根据未经分组资料计算平均数。 用公式表达即为: (4.7)
我们先来看一个最简单的例子。 【例4.4】假如某种蔬菜在早、中、晚市的每市斤的单价分别为0.5元、0.4元、0.2元,若早、中、晚市各买一市斤,其平均价格用简单算术平均数计算,结果是0.37元。但若早、中、晚市各买一元钱,其平均价格是多少? 【解】计算方法应先把总重量计算出来,然后再将总金额除以总重量。即:
2.3 加权调和平均数 设m为加权调和平均数的权数,加权调和平均数公式即为: (4.8)
【例4.5】仍用前面对蔬菜计算平均价格为例,如果现在早、中、晚市所花钱数不再是一元钱,而是如表4.2的情形,求购进的该种蔬菜的平均价格。【例4.5】仍用前面对蔬菜计算平均价格为例,如果现在早、中、晚市所花钱数不再是一元钱,而是如表4.2的情形,求购进的该种蔬菜的平均价格。 表4.2 调和平均数计算表 【解】 平均价格 元
2、位置平均数 2.1 中位数 中位数(median)是一组数据按大小顺序排列后,处于中间位置的那个变量值,通常用 表示。其定义表明,中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中,一半数值小于中位数,另一半数值大于中位数。中位数是一个位置代表值,因此它不受极端变量值的影响。
2. 1.1由未分组数据确定中位数 对未分组数据资料,需先将各变量值按大小顺序排列,并按公式 确定中位数的位置。 当一个序列中的项数为奇数时,则处于序列中间位置的变量值就是中位数。 例如:根据7、6、8、2、3这五个数据求中位数,先按大小顺序排成2、3、6、7、8。在这个序列中,选取中间一个数值6,小于6的数值有两个,大于6的数值也有两个,所以6就是这五个数值中的中位数。
当一个序列的项数是偶数时,则应取中间两个数的中点值作为中位数,即取中间两个变量值的平均数为中位数。 例如一个按大小顺序排列的序列2、5、7、8、11、12,其中位数的位置在7与8之间,中位数就是7与8的平均数,即:
2. 1.2由单项数列确定中位数 根据单项数列资料确定中位数与根据未分组资料确定中位数方法基本一致。它是先计算各组的累计次数(或频数),再按公式 确定中位数的位置,并对照累计次数确定中位数。 【例4.8】某班同学按年龄分组资料如表4.4所示,求中位数。 表4.4 单项数列求中位数计算表 【解】 年龄中位数的位置为
2.3 众数 众数(mode)是一组数据中出现次数最多的那个变量值,通常用 表示。众数具有普遍性,在统计实践中,常利用众数来近似反映社会经济现象的一般水平。例如,说明某次考试学生成绩最集中的水平;说明城镇居民最普遍的生活水平等等。 众数的确定要根据掌握的资料而定。未分组资料或单项数列资料众数的确定比较容易,不需要计算,可直接观察确定。即在一组数列或单项数列中,次数出现最多的那个变量值就是众数。如表4.4中,19岁出现的人数最多,为26人,所以19岁就是众数。(上页ppt,直接观察法。P112页)
2.4 用Excel计算反映集中趋势的的描述统计量 1. 算术平均数是数据集中趋势的最主要的统计描述量。 计算算术平均数使用AVERAGE函数,格式为:AVERAGE(NUMBER1,NUMBER2,……) 2. 调和平均数(又称倒数平均数) 计算调和平均数使用HARMEAN函数,格式为:HARMEAN(NUMBER1,NUMBER2,……) 3. 中位数是将全部数值按大小顺序排列后居于中间位置的数值。 计算中位数使用MEDIAN函数,格式为:MEDIAN(NUMBER1,NUMBER2,……) 4. 众数是在数列或数据区域中出现频率最多的数值。 计算众数使用MODE函数,格式为MODE(NUMBER1,NUMBER2,……
第二节 离散程度的描述 集中趋势是一个说明同质总体各个体变量值的代表值,其代表性如何,决定于被平均变量值之间的变异程度。在统计中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度。反映离散程度的指标有绝对数的和相对数两类。
3.1 离散程度的绝对指标 极差(range)也叫全距,是一组数据的最大值与最小值之离差,即: (4.11) 式中:R为极差;max( )和min( )分别为一组数据 的最大值和最小值。 对于组距分组数据,极差也可近似表示为: R≈最高组的上限值—最低度组的下限值 (4.12)
3.2 平均差 平均差(mean deviation)也称平均离差,是各变量值与其平均数离差绝对值的平均数,通常用 表示。由于各变量值与其平均数离差之和等于零,所以,在计算平均差时,是取绝对值形式的。 平均差的计算根据掌握数据资料不同而采用两种不同形式。
简单式 • 对未经分组的数据资料,采用简单式,公式如下: (4.13) 【例4.9】计算5、11、7、8、9的平均差。 【解】先计算其算术平均数,为8,再代入公式(4.17)得:
2. 加权式 根据分组整理的数据计算平均差,应采用加权式,公式如下: (4.14) 【例4.10】现利用表4.1的资料,计算平均差 表4.5 平均差计算示例表
极差是描述数据离散程度的最简单测度值,它计算简单,易于理解。但它只是说明两个极端变量值的差异范围,因而它不能反映各单位变量值变异程度,易受极端数值的影响。 在可比的情况下,一般平均差的数值越大,则其平均数的代表性越小,说明该组变量值分布越分散;反之,平均差的数值越小,则其平均数的代表性越大,说明该组变量值分布越集中。
3.3 标准差与方差 标准差(standard deviation)又称均方差,它是各单位变量值与其平均数离差平方的平均数的方根,通常用 表示。它是测度数据离散程度的最主要方法。标准差是具有量纲的,它与变量值的计量单位相同。 标准差的本质是求各变量值与其平均数的距离和,即先求出各变量值与其平均数离差的平方,再求其平均数,最后对其开方。之所以称其为标准差,是因为在正态分布条件下,它和平均数有明确的数量关系,是真正度量离中趋势的标准。
根据掌握的数据资料不同,有简单式和加权式两种。根据掌握的数据资料不同,有简单式和加权式两种。 1. 简单式 对未经分组的数据资料,采用简单式,公式如下: (4.15) 【例4.11】计算5、11、7、8、9的标准差。 【解】先计算其算术平均数,为8,再代入公式(4.15)得:
2. 加权式 根据分组整理的数据计算标准差,应采用加权式,公式如下: (4.16) 见书p120
3.4 离散程度的相对指标 对于平均数不等或计量单位不同的不同组别的变量值,是不能直接用离散程度的绝对指标比较其离散程度的。为了消除变量平均数不等和计量单位不同对离散程度测度值的影响,需要计算离散程度的相对指标,即离散系数(标志变异系数),其一般公式是:
离散系数(coefficient of variation)通常是就标准差来计算的,因此,也称为标准差系数,它是一组数据的标准差与其对应的平均数之比,是测度数据离散程度的相对指标,其计算公式如下: (4.17) 【例4.13】某地两个不同类型的企业全年平均月产量资料如表4.7,计算标准差系数。 表4.7 离散系数比较分析表 标准差 离散系数(%) 月平均产量
炼钢厂的标准差比纺纱厂大,但我们却不能直接断定炼钢厂的平均月产量的代表性就比纺纱厂的小。因为,首先这两个厂的平均月产量相差悬殊,其次两个厂属于性质不同(计量单位不同)的两个企业。因此只能根据离散系数的大小来判断。表4.6中最后一栏的两个企业的离散系数表明,炼钢厂的平均月产量的代表性就比纺纱厂的大,生产比较稳定。其结果与用标准差判断的结果正好相反。
3.5 用Excel计算反映离中趋势的的描述统计量 • 全距(又称极差)是最大值与最小值之差,用“MAX(ARRAY)—MIN(ARRAY)”求得。 • 2. 平均差是各个数据与其算术平均数离差绝对值的算术平均数。 • 计算平均差使用AVEDEV函数, • 3. 标准差用于反映相对于算术平均数的离散程度。 • 计算标准差有两个函数:一是样本标准差STDEV函数,二是总体标准差STDEVP函数。 • 4. 方差是标准差的平方,它也是衡量离散程度的重要指标。 • 计算方差有两个函数:一是样本方差VAR函数,二是总体方差VARP函数。
反映现象总体规模或水平的综合指标,即数量指标,也称为统计绝对数。反映现象总体规模或水平的综合指标,即数量指标,也称为统计绝对数。 总量指标 总量指标的作用: • 是认识社会经济现象的起点; • 是实现宏观经济调控和企业经营管理的基本指标; • 是计算其他统计指标的基础。 第三节 绝对规模的描述 3.1 总量指标的概念与作用
特点: (1)总量指标的数值大小与所研究的总体范围大小有关,总体范围越大,总量指标一般也越大,反之则越小。 例:2010年9月1日A市自来水用水量为90万立方米,这一统计数字可以概括地说明特定时间段内A市自来水的用水量总水平。 (2)有时总量指标也可以表现为同一总体在不同的时间、空间条件下的差数。 例如:2008年末,我国就业人数比上年增加了490万人。 问题:要了解我们学校的情况,我们需要了解 哪些总量指标?
总体单位总量 按反映的总体内容不同分为: 总体标志总量 时期指标 按反映的时间状况不同分为: 时点指标 3.2 总量指标的基本分类
总体单位总量和总体标志总量 总体单位总量 总体内所有单位的总数 班级人数,工业企业,设备台数 一个特定总体,只有一个单位总量 总体标志总量 总体内各单位标志值总和 全国工业总产值,工人工资总额 一个特定总体,可同时并存多个标志总量
年份 企业数 工人总数 工业总产值 利税总额 年末固定资产总额 • (万元) (万元) (万元) (万元) • 2008 164 73900 204510 63850 22375 • 2009 160 75800 197585 59780 22393 • 2010 161 75670 201348 62375 22516 • (单位总量) (标志总量)
思考: 要调查某市所有学校的教学环境,调查得知全市学校的学校总数、教师总数、在校学生总数、固定资产总额、教育经费、教职工工资总额等总量指标,你能判断出它们 属于总量指标中哪种具体种类吗?
3.3时期指标和时点指标 时期指标 现象总体在一段时期内发展过程的总量 需要连续登记汇总 具有可加性 数值大小与时期长短有直接关系 时点指标 现象总体在某一时刻(瞬间)的数量状况 一次性登记调查得到 不具有可加性 数值大小与时期长短没有直接关系
时期指标 ——工业总产值 国民生产总值 人口出生数 工资总额 • 工业总产值 • 土地面积 • 国民生产总值 • 商品库存额 • 人口总数 • 人口出生数 • 工资总额 • 在校学生人数 • 银行存款余额 时点指标 ——土地面积 商品库存额 人口总数 在校学生人数 银行存款余额
利润总额 资金占用 资金利润率 50万元 300万元 16.7% 甲企业 500万元 4000万元 12.5% 乙企业 不可比 不可比 可比 比较两厂经济效益
指应用对比的方法来反映相关事物之间数量联系程度的指标,也称为相对数。指应用对比的方法来反映相关事物之间数量联系程度的指标,也称为相对数。 相对指标 相对指标的作用: • 用来进行宏观经济管理和评价经济活动的状况 • 使不能直接对比的现象找到共同的比较基础 4.3、相对指标的概念及作用