500 likes | 751 Views
第三章 统计整理. 【 学习目标 】 通过对本章的学习,重点掌握统计整理的最基本理论,在此基础上熟练掌握主要的整理操作方法,能够根据不同的统计原始数据编制相应的次数分布数列,并能根据所编制的数列编制恰当的统计表和绘制适当的统计图。. 第一节 统计整理的基本理论. 第二节 统计分组. 第三节 次数分布. 第四节 统计汇总. 第五节 统计表. 第六节 统计图. 统计整理,是指根据统计研究目的,将统计调查所得的原始资料进行科学的分类汇总,或对已经加工的次级资料进行再加工,为统计分析准备系统化、条理化的综合资料的工作过程。. 统计整理.
E N D
第三章 统计整理 【学习目标】通过对本章的学习,重点掌握统计整理的最基本理论,在此基础上熟练掌握主要的整理操作方法,能够根据不同的统计原始数据编制相应的次数分布数列,并能根据所编制的数列编制恰当的统计表和绘制适当的统计图。 第一节统计整理的基本理论 第二节 统计分组 第三节 次数分布 第四节 统计汇总 第五节 统计表 第六节 统计图
统计整理,是指根据统计研究目的,将统计调查所得的原始资料进行科学的分类汇总,或对已经加工的次级资料进行再加工,为统计分析准备系统化、条理化的综合资料的工作过程。统计整理,是指根据统计研究目的,将统计调查所得的原始资料进行科学的分类汇总,或对已经加工的次级资料进行再加工,为统计分析准备系统化、条理化的综合资料的工作过程。 统计整理 是统计调查的继续,统计分析的前提和基础 抓住最基本的、最能说明问题本质特征的统计分组和统计指标对统计资料进行加工整理 地位 原则
制定统计整理方案 对原始资料进行审核 统计整理的步骤 对原始资料进行汇总 制作统计表或统计图 统计资料的积累和保管
【专栏3-1】 对于不同层次家纺品牌的小小统计整理 家的概念被扩大化,对于家的要求也随着生活水平的提高而与日俱增,那么对于装扮一个家的家纺用品你又知道哪些呢?紧密相关的家纺品牌又了解几个呢?你的家需要哪个档次的品牌用品来装饰呢?针对国内外比较有名的品牌,粗略可以分为: 国内高档品牌:富安娜、梦洁、罗莱、堂皇、梦兰、佳丽斯、维科、博洋。 国内中档品牌:恐龙、厦门莱美,全国惠谊、水星被服、香榭里、馨亭、内野、棉田、仙合、福沁、凯盛、 华源塞拉维(SILLVE)。 国内低档品牌:红富士,小绵羊,杰元、松田、民光。 知名国外品牌:德国鲍,美国E-SPRIT、法国依夫德侬、法国帝豪、,意大利TRUSSADI,法国PRETTE、澳大利亚喜来登、法国梦特娇、澳大利亚PERI等。 一般国外品牌:法国ELLE、法国JASON、美国POLO、韩国阿曼特、美国TEMPER、美国布芮尼、美国JODGE、美国迪斯尼、法国DESCAMPS、英国OLIVER、意大利ZUCCIHI、意大利BASSAITI。 了解了这么多品牌,你会选择个什么品牌来点缀你心爱的家呢?
将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程将总体中所有单位按一定的标志分为性质不同但又有联系的若干部分的过程 统计分组 统计分组的作用: • 划分社会经济现象的类型 • 反映社会经济现象的内部结构和比例关系 • 揭示社会经济现象之间的相互依存关系 总体经过分组,能够突出组与组之间的差异而抽象掉组内各单位之间的差异,使数据变得条理化,便于进一步分析研究。
【专栏3-2】古代姓氏整理 ①北宋以后的封建社会,长期作为儿童识字读物的《百家姓》(北宋钱塘无名氏编),共收入502个姓氏(其中单姓342个,复姓60个。开头曰:“赵钱孙李,周吴郑王,冯陈褚卫,蒋沈韩杨……”)。 ②宋代郑樵《通志·姓氏略》中统计古代姓氏共有1745个。 ③明代翰林院编修吴沈等人据当时户部所藏户籍编成《皇明千家姓》,收姓氏1968个。(开头曰:“朱奉天运,富有万方,圣神文武,道合陶唐……”)。 ④清代康熙帝亲自审定《御制百家姓》,(开头曰:“孔师阙党,孟席齐梁,高山詹仰,邹鲁荣昌,冉季宗正,游夏文章……”)。 ⑤清人张澍《姓氏寻源》、《姓氏辨误》中说古姓氏有5129个。 ⑥49年后,大陆学者阎福卿等曾编辑出版过《中国姓氏汇编》共收姓氏5730个。其中单姓3470个,双字姓2085个,三字姓163个,四字五字姓12个。***省也出版过《中华姓符》共收姓氏6363个,但里面有异体字重复收入的情况。 ⑦据中国语言文字改革工作委员会汉字处1984年的抽样调查及有关专家的估计,直到今天还在使用的姓氏在3000个以上。(气象出版社2001年1月出版王大良编《当代百家姓》据1982年全国人口普查数据认为:目前,我国常用的姓约400个,按当时人口数算,前100个姓是:李王张刘陈杨赵黄周吴,徐孙胡朱高林何郭马罗,梁宋郑谢韩唐冯于董萧,程曹袁邓许傅沈曾彭吕,苏卢蒋蔡贾丁魏薛叶阎,余潘杜戴夏钟汪田任姜,范方石姚谭廖周熊金陆,郝孔白崔康王丘秦江史,顾侯郎孟龙万段雷钱汤,尹黎易常武乔贺赖龚文。这100姓占全国总人口的87%以上。其中李王张刘陈5姓就有3亿多人口。李8700万、王8000万、张800万、刘6000万、陈5000万。全国各城市的大姓情况也不一样,如上海前10名的姓是:张王陈李徐朱周吴刘沈。)这个数字跟我们前面说的所谓远古即有的纯正的“姓”相去太远了。
统计分组的程序与原则 选择分组标志 确定分组体系 总体单位归类 科学性:组间差异大,组内差异小。 穷尽性和互斥性:每个单位均能且只能归到某个组中。
? 统计分组的程序与原则 对大学生月生活费支出情况进行分组研究: 按家庭收入水平分组; 按城乡分组; 按性别分组; 按年龄分组。 对父母亲下岗情况进行分组研究: 单亲下岗; 双亲下岗; 双亲在岗。 不符合科学性
指同时使用两个以上标志分组时,分组标志的组合形式。指同时使用两个以上标志分组时,分组标志的组合形式。 分组体系 平行分组体系 复合分组体系 统计分组的程序与原则 各分组标志并列使用 各分组标志交叉结合使用
平行分组体系 男性 按性别分类 女性 高级 对教师的分类 共计7组 2+3+2 按职称分类 中级 初级 青年 按年龄分类 中年
复合分组体系 共计12组2×3×2 男 按性别分类 女 高级 对教师的分类 按职称分类 中级 按年龄分类 初级 青年 中年
将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组在总体中所占的比重而形成的数列 分布数列 分组标志的具体表现 各组的次数或频率 构成要素 品质数列 单项式数列 变量数列 等距数列 组距数列 异距数列 分 类
第三章 统计整理 1987年底我国职工构成表 组的名称 次数(频数 ) 比率(频率)
第三章 统计整理 第三节 次数分布 某班学生某学期统计学成绩
指每个组值只用一个具体的变量值表现的数列 单项式数列 编制条件: 变量是离散变量 变量的不同取值个数较少 变量数列的编制 同时 具备 【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。
指每个组的变量值用一个区间来表现的变量数列指每个组的变量值用一个区间来表现的变量数列 组距数列 编制条件: 变量是连续变量; 或:总体单位数较多变量不同取值个数也较多的离散变量。 等距数列 异距数列 变量数列的编制 变量值变动区间的长度相等 变量值变动区间的长度不完全相等
指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限指每组两端表示各组界限的变量值,各组的最小值为下限,最大值为上限 组限 每组变量值变动区间的长度,为上下限之差 组距 每组变量取值范围的中点数值 组中值 组中值= 相关概念
首组 组中值 末组 组中值 开口式组距数列组中值的计算: 先计算开口组的假定上、下限: 首组假定下限=首组上限-相邻组组距 末组假定上限=末组下限+相邻组组距 因此有:
某地区100个百货商店 月销售额与流通费用情况 如:组距d=U-L =100-50=50(万元) 上组限U 如:组中值x=(U+L)/2 =(100+200)/2 =150(万元) 下组限L
适用于总体单位的标志值变动比较均匀的情况 编制等距数列 实例 己知某地区某年50个商店商品销售额的资料如下(单位:百万元): 7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7 6.0 11.4 23.0 14.2 16.7 21.0 16.0 13.6 10.0 13.9 5.0 5.8 10.5 16.3 22.0 要求编制组距数列。
确定组距的原则: • 要能区分各组的性质差异 • 要能反映总体资料的分布特征 • 为方便计算,尽可能为5或10的整数倍 编制等距数列 编制步骤: ⒈求变异全距 ⒉确定组距及组数 R≤组距(d) ×组数(m)
(当 的结果为整数时) (当 的结果为小数时) 编制等距数列 计算组数(组数不宜过多,也不宜太少) 上例中,取d=5,则有
组限的表示方法 • 对于离散变量,相邻组组限可以间断,也可重叠; • 对于连续变量,相邻组组限必须重叠; • 符合“上组限不计入”原则; • 首末两组可使用“××以下”及“××以上”的开口组。 编制等距数列 ⒊确定组限
各组单位数占总体单位总数的比重 频率 向 上 累 计 向 下 累 计 累计次数(频率) 从变量值低的组开始,将各组次数(频率)逐次向变量值高的组累计,说明某一组上限以下各组的累计次数(频率)。 从变量值高的组开始,将各组次数(频率)逐次向变量值低的组累计,说明某一组下限以上各组的累计次数(频率)。
以点、线条、面积等方法描述、显示统计数据的形式以点、线条、面积等方法描述、显示统计数据的形式 统计图 具有直观、醒目、易于理解等特点 组成: 坐标系 图形 图例 单式图 复合图 用一个图同时显示几种数量的分布或变化情况 叠加图 一个图只用来显示一种现象的数量特征
用于显示离散型变量的次数分布 条形图(Bar) 几种常用的统计图
几种常用的统计图 用于显示离散型变量的次数分布 条形图(Bar)
几种常用的统计图 用于显示离散型变量的次数分布 条形图(Bar)
用于显示离散型变量的次数分布 条形图(Bar)
用于显示连续型变量的次数分布 直方图(Histogram)
直方图 条形图
用于显示定类变量的次数分布 圆形图(饼图Pie)
主要用于显示连续型变量的次数分布和现象的动态变化主要用于显示连续型变量的次数分布和现象的动态变化 线图(Line)
主要用来观察变量间的相关关系,也可显示数量随时间的变化情况主要用来观察变量间的相关关系,也可显示数量随时间的变化情况 散点图(Scatter)
以纵横交叉的线条所形成的表格来表现统计资料的形式以纵横交叉的线条所形成的表格来表现统计资料的形式 统计表 具有容量大、方便计算等特点 总 标 题 统计表的常用结构:
统计表的加工方法 (对主词进行分组) 对主词栏加工 简单表:主词未经任何分组 分组表:主词只按一个标志分组 复合表:主词按两个或两个以上标志分组 (选择指标及对指标进行分组) 对宾词栏加工 宾词简单排列:宾语不加任何分组 分组平行排列:分组标志彼此分开,平行排列 分组层叠排列:有层次按两个以上标志分组
统计表式设计注意事项 • 统计表应设计成由纵横交叉线条组成的长方形表 格,长与宽之间保持适当的比例; • 合计栏设计。各纵列须合计时,应将合计列在最后一行,各横行须合计时,将合计列在最前一栏或最后一栏。 • 表的上、下端用粗线或双线封口,左右两端一般不封口; • 栏数的编号。若栏数较多,可按顺序编号,习惯上主词栏部分以“甲、乙、丙…”为序号,宾词栏以(1)、(2)、(3)…为序号。
统计表内容设计注意事项 • 标题设计。 • 指标数值。表中数字应该填写整齐,对准位数。当数字因小可略 而不计时,可写上“0”;当缺某项数字资料时;可用“…”表示;当不应有数字时用“-”表示。 • 计量单位。当全表只有一种计量单位时,可把它写在表头的右上方;若表中各栏的指标数值的计量单位不同,可以横行标题后添一列计量单位。 • 注解或资料来源。在统计表下应注明资料来源,以便查考,必要时,可以表下加注解或说明。
获金牌项目金牌数 占总数比例 跳水 5枚 0.1786 举重 5枚 0.1786 乒乓球 4枚0.1429 羽毛球 4枚0.1429 体操 3枚0.1071 射击 3枚0.1071 柔道 2枚0.0714 田径 1枚0.0357 跆拳道 1枚 0.0357 中国体育代表团在悉尼奥运会上获金牌的项目 品质数列(简单表)
— — — — 简单分组表
第三章 统计整理 本章小结 本章主要介绍了有关统计整理的基础知识,包括统计整理 的含义及其重要性、统计整理的内容、统计分组的意义、分组 的类型和方法、次数分布的含义和类型、次数分布的编制方法 、统计表的构成和编制、几种常用统计图的绘制等,这些内容. 复习思考题 1.什么是统计整理?统计整理在统计研究中的作用如何? 2.什么是统计分组?统计分组有什么作用? 3.统计表由哪几部分组成?统计表有哪些种类?