590 likes | 830 Views
第 2 章 统计数据的搜集与显示. 第一节 数据的计量与类型 第二节 数据的搜集 第三节 数据的显示. 了解数据的计量尺度和数据类型 了解数据的搜集和数据的质量要求 掌握统计分组的原理和频数分布数列的编制 掌握茎叶图和箱线图的制作方法 掌握统计表和统计图的使用. 学习目标. 第一节 数据的计量与类型. 一、数据的计量尺度 二、数据的类型. 数据的计量尺度. 定类尺度. 定序尺度. 定距尺度. 定比尺度. 数据的计量尺度. 也称列名尺度或分类尺度 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求
E N D
第2章 统计数据的搜集与显示 第一节 数据的计量与类型 第二节 数据的搜集 第三节 数据的显示
了解数据的计量尺度和数据类型 了解数据的搜集和数据的质量要求 掌握统计分组的原理和频数分布数列的编制 掌握茎叶图和箱线图的制作方法 掌握统计表和统计图的使用 学习目标
第一节 数据的计量与类型 一、数据的计量尺度 二、数据的类型
数据的计量尺度 定类尺度 定序尺度 定距尺度 定比尺度 数据的计量尺度
也称列名尺度或分类尺度 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有=或的数学特性 定类尺度(Nominal scale)
也称顺序尺度 对事物分类的同时给出各类别的顺序 比定类尺度精确 未测量出类别之间的准确差值 数据表现为“类别”,但有序 具有>或<的数学特性 定序尺度(Ordinal scale)
也称间隔尺度 对事物的准确测度 比定序尺度精确 数据表现为“数值” 没有绝对零点 具有 + 或 - 的数学特性 定距尺度(Interval scale)
也称比率尺度 对事物的准确测度 与定距尺度处于同一层次 数据表现为“数值” 有绝对零点 具有 或的数学特性 定比尺度(Ratio scale)
四种计量尺度的比较 计量尺度 数学特性 “√”表示该尺度所具有的特性
1.定类数据:由定类尺度计量形成 2.定序数据:由定序尺度计量形成 3.定距数据:由定距尺度计量形成 4.定比数据:由定比尺度计量形成 数据的类型 与数据计量尺度相对应,数据也有四种:定类数据、定序数据、定距数据、定比数据
不同计量层次、不同数据类型与不同统计分析方法比较不同计量层次、不同数据类型与不同统计分析方法比较
第二节 数据的搜集 一、数据的直接获取 二、数据的间接获取
数据的直接获取 • 统计报表制度 • 普查 • 重点调查 • 典型调查 • 抽样调查
按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供统计资料按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供统计资料 资料来源于基层单位的原始记录 主要特点:制度化、规范性、层次性、周期性 广泛应用于我国各级政府部门、企事业单位 局限性:时滞性 统计报表制度(system of statistical report)
为特定目的专门组织的非经常性全面调查 通常是一次性或周期性的 一般需要规定统一的标准调查时间 数据的规范化程度较高 应用范围比较狭窄 总体 普查(census)
在调查对象中选择一部分重点单位进行调查,借以了解总体基本情况的一种非全面调查在调查对象中选择一部分重点单位进行调查,借以了解总体基本情况的一种非全面调查 重点单位:在总体中具有举足轻重地位的单位,这些单位数虽少,但它们调查的标志值在总体标志值中占有绝大比重 重点调查(major survey)
根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查,是一种非全面调查根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查,是一种非全面调查 选典方式: (1)近似的估计总体的数值,可“划类选典” (2)了解总体的一般数量表现,可“择中选典” (3)研究成功的经验或失败的教训,可“优劣选典” 典型调查(typical survey)
1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 总体 随机样本 抽样调查(sampling survey) 2. 具有经济性、时 效性强、适应面广、准确性高等特点
统计部门和政府部门公布的有关资料,如各类统计年鉴统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料 Internet http//WWW. 世界发展报告 中国人口统计年鉴 中国市场统计年鉴 世界经济年检 工业普查数据 中国统计年鉴2010 中国统计出版社 数据的间接获取
Excel 第三节 数据的显示 一、数据的审核 二、统计分组与频数分布 三、统计表与统计图
直接来源数据的审核:完整性、准确性 间接来源数据的审核 :完整性、准确性、适用性和时效性 数据的审核
按照统计研究的目的,将数据分别列入不同的组内按照统计研究的目的,将数据分别列入不同的组内 形式: 品质标志分组:按列名尺度和顺序尺度对总体的性质和属性进行分组 数量标志分组:按间隔尺度和比例尺度对总体的数量特征进行分组 统计分组
数列中每个组的变量值都只有一个,即一个变量值为一组数列中每个组的变量值都只有一个,即一个变量值为一组 适用于变异幅度不太大的离散型变量 单项式分组
将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组 ~ ~ ~ ~ ~ 组距分组(要点)
确定组数:组数的确定应以能够显示数据的分布特征和规律为目的确定组数:组数的确定应以能够显示数据的分布特征和规律为目的 确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 确定组限:最小组的下限略低于或等于最小变量值,最大组上限略高于或等于最大变量值。若采取连续型分组数列,重叠组限的归组:“上限不在内原则” 统计出各组的频数并整理成频数分布表 组距分组(步骤)
1. 下限(low limit):一个组的最小值 2. 上限(upper limit):一个组的最大值 3. 组距(class width):上限与下限之差 4. 组中值(class midpoint):下限与上限之间的中点值 下限值+上限值 组中值 = 2 组距分组(几个概念)
开口组的使用:当数据中存在少数极值时,为了不让数列组数太多,则考虑采用开口组开口组的使用:当数据中存在少数极值时,为了不让数列组数太多,则考虑采用开口组 开口组组中值 缺少下限组其组中值=该组上限–邻组组距/ 2 缺少上限组其组中值=该组下限+邻组组距/ 2 开口组组中值
次数分配表的编制(例题分析) 【例】某班50名学生统计学考试成绩资料如右表试对数据进行分组。 89 78 67 89 90 79 98 95 76 56 91 90 86 81 78 79 76 67 78 79 70 45 56 78 79 98 97 87 86 84 79 76 75 73 72 86 75 78 84 67 68 69 65 62 60 63 30 79 87 88
左偏分布 对称分布 右偏分布 U型分布 正J型分布 反J型分布 频数分布的类型 几种常见的频数分布
统计表 2008年全国分行业增加值 (表头:总标题) 资料来源:《中国统计年鉴2010》,北京:中国统计出版社(表脚)
条形图 饼图 环形图 累计频数分布图 定性数据的图示
条形图(bar Chart) 世界上部分国家的互联网普及率条形图 • 用宽度相同的条形的高度或长短来表示各类别数据 • 各类别可放在纵轴,称为条形图,可以放在横轴,称为柱状图(column chart) • 条形图有单式、复式和叠加等形式
饼图(pie Chart) 企业法人单位的所有制结构饼图 • 用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例用于研究结构问题
环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示 与饼图类似,但环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环 用于结构比较研究 环形图(doughnut chart) 某届亚运会上中国、日本和韩国的奖牌构成环形图
根据累计频数或累计频率绘制 定性数据中只有定序数据分组才能作累计频数图 有“向上累计”与“向下累计”之分 累计频数图(cumulative frequencychart) 学生成绩累计频数图
直方图 折线图 曲线图 茎叶图 箱线图 累计频数图 Excel 定量数据的图示
用于展示分组数据分布的一种图形 用矩形的宽度和高度来表示频数分布 本质上是用矩形的面积来表示频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1 直方图(histogram)
我一眼就看出来了,考试成绩在70~80之间的人数最多!我一眼就看出来了,考试成绩在70~80之间的人数最多! (直方图的绘制) 50名学生统计学成绩分布直方图
折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的 折线图(frequency polygon)
(折线图的绘制) 折线图与直方图 下的面积相等!
用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高位数值作树茎,低位数字作树叶 树叶上只保留最后一位数字 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 直方图适用于大批量数据,茎叶图适用于小批量数据 茎叶图(stem-and-leaf plot)
第一列给出每个茎上叶子的频数 第二列是“茎”,第三列是“叶” 上端标出了1个极端值30 下端标出茎的宽度10、每个叶代表一个数据(案例) SPSS自动将每个茎重复了一次,使分布的细节看的更清楚一些。当然,在数据较少时茎的数值也可以不重复 茎叶图(例题分析) 50名学生统计学考试成绩茎叶图
用于显示未分组的原始数据的分布 箱线图是由一组数据的最大值(maximum)、最小值(minimum)、中位数(median)、两个四分位数(quartiles)这5个值绘制而成的 中位数是一组数据排序后处于中间位置上的变量值 四分位数是一组数据排序后处在数据25%位置和75%位置上的两个分位数值 绘制方法 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分位数画出箱子,再将两个极值点与箱子相连接 箱线图(box plot)
X Q Q X Min 25% 75% Max 箱线图(构成) 中位数 4 6 8 10 12 Median/Quart./Range箱线图
箱线图(例题分析) 25%四分位数 68 中位数 78 75%四分位数 86 最小值 30 最大值 98 30 40 50 60 70 80 90 100 50名学生统计学考试成绩的Median/Quart./Rang箱线图
分布的形状与箱线图 左偏分布 对称分布 右偏分布 不同分布的箱线图
多批数据箱线图(例题分析) 【例】某保险公司人事部经理希望对新进32名大学生实行的四种销售培训方案的效果进行评估,假定每个方案随机指派8名人员,经过培训一段时间后进行统一考试,其成绩如右表,绘制并比较四组数据的箱线图。