720 likes | 842 Views
第二章 地理数据的初步整理. 第一节 地理数据的类型、特征及其采集. 一、地理数据的类型. (一)空间数据. 空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述它们之间联系的拓扑关系 。. 点:由一个独立的坐标点( x,y )定位,可以表示精确的地理坐标点,也可以是一些地理实体的抽象,如道路交叉点、河流汇聚点以及小比例尺地图上的城镇、村庄等。.
E N D
第二章 地理数据的初步整理 第一节 地理数据的类型、特征及其采集 一、地理数据的类型 (一)空间数据 空间数据,主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系。空间数据的表达,可以将其归纳为点、线、面三种几何实体以及描述它们之间联系的拓扑关系。 点:由一个独立的坐标点(x,y)定位,可以表示精确的地理坐标点,也可以是一些地理实体的抽象,如道路交叉点、河流汇聚点以及小比例尺地图上的城镇、村庄等。
线:由两个以上坐标点定义,有一定的长度和走向,表示线状地物或点实体之间的联系。如交通线、河流及各种地理区域的界线等,都是线实体。线:由两个以上坐标点定义,有一定的长度和走向,表示线状地物或点实体之间的联系。如交通线、河流及各种地理区域的界线等,都是线实体。 面:表示在空间上连续分布的地理景观或区域。如居民区、工业区、行政区等都是面实体。 点、线、面三种地理几何实体,按照一定的拓扑关系组合、排列,就可以形成更为复杂的地理几何实体。如点、线组合形成网络;线、面组合形成地带;点、面组合形成地域类型;点、线、面组合形成地理区。
(二)属性数据 属性数据主要用于描述地理实体、地理要素、地理现象、地理事件及地理过程的有关属性特征,如海拔高度、气温、植被覆盖率、人口数量等。属性数据可以分为两种类型:即数量标志数据和品质标志数据。 (1)数量标志数据
①间隔尺度数据 是以有量纲的数据形式表示测度对象在某种量纲下的绝对量。如摄氏温标表示气温,以面积量纲表示土地面积 。
②比例尺度数据 是以无量纲的数据形式表示测度对象的相对量。这种数据要求事先规定一个基点,然后将其他同类数据与基点数据相比较,换算为基点数据的比例。因此这类数据常常又称为指数或比例数。如耕地指数、工业发展指数、舒适度指数等。
(2)品质标志数据 ①有序数据 表示其顺序关系的数据,则称其为有序尺度或等级尺度数据。这种数据并不表示量的多少,而只是给出一个等级或次序。如用1、2、3等分别表示特大城市、大城市、中等城市等城市等级。
② 二元数据 即用0、1两个数据表示地理事物、地理现象或地理过程的比较判断问题。如在人口统计中,用1表示男性,用0表示女性;用1表示多,用0表示少等。
③名义尺度数据 即用数字表示地理实体、地理要素、地理现象、地理事件的状态类型。如在土地利用现状调查中,用数字表示土地利用的状态,15表示菜地,14表示草地等。
属性数据根据变量值是否连续也可分为不连续性或间断性数据和连续性数据。属性数据根据变量值是否连续也可分为不连续性或间断性数据和连续性数据。 不连续性或间断性数据是指用计数方法获得的数据。如人口数、学校数、作物的苗数等; 连续性数据指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个整数之间可以有微量数值差异的第三个数值存在。
根据数据的来源不同,数据分为横贯数据(cross-sectional data)和纵贯数据(longitudinal data)。 横贯数据指对同一时间、不同个体的观察数据,有时也称为静态数据;纵贯数据指对同样的个体在不同时间上的多次观察所得到的数据,有时称为动态数据。
二、地理数据的特征 (一)地理数据的时空特征 1.从空间尺度上看,地理学的研究对象—地理区域,既可以是全球范围的、洲际范围的、国家范围的,也可以是流域范围的、地区范围的、城市范围的社区范围等。 2.从时间尺度上看,地理学的研究对象—地理过程,既有以地质年代和地层年代衡量的古地质过程,也有以历史年代衡量的历史地理过程,还有以天、月、季度、年等时间单位衡量的现代地理过程。
(二)多维性 对于一个地理对象,需要从空间、属性和时间三个方面进行综合描述。在空间方面,需要描述该地理对象所处的地理位置的空间范围;在属性方面,需要描述该地理对象的具体内容;在时间方面,需要描述该地理对象产生、发展和存在的时间范围。 (三)不确定性 主要是由于地理系统的复杂性和数据采集过程中造成的误差。
三、地理数据采集 (一)原始资料的收集 (1)试验方法:控制一种或多种因素保持不变,记录某种所研究因素的变化情况。 (2)原始记录:来自观测、测量部门的有关专业数据。如来自水文观测站的有关水文数据;来自气象观测站的有关气象数据;来自环境监测部门的空气、水质数据等。
(二)次级资料的收集 (1)来自统计年鉴、统计公报中的有关自然资源及社会经济发展数据。如从各级政府统计部门公布和出版的统计年鉴中,可以得到当地的耕地面积、各类农作物播种面积、粮食产量、人口劳动力、工业投资及产值、国内生产总值等数据。 (2)来自有关单位或个人的不定期的典型调查数据、抽样调查数据。
(3)来自政府公报、政府文件中的有关数据。(3)来自政府公报、政府文件中的有关数据。 (4)来自档案、图书等文献资料中的有关数据。 (5)来自互联网的有关共享数据。 (6)地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 (7)遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 (8)其他来源的有关数据。
对于地理数据的采集,需要特别注意和强调的是数据的质量,即数据的完备性和可靠性。对于地理数据的采集,需要特别注意和强调的是数据的质量,即数据的完备性和可靠性。 在数据采集的开始,首先要考虑数据来源的可靠性。 在数据采集过程中,要采取一切可能的手段和技术措施,最大限度地减少数据的误差。 在数据采集完毕后,要对各种数据质量进行检验,要对不同来源的相同数据进行比较,辩别真伪,要通过数据筛选,去粗存精,去伪存真。 对于残缺的但确实必须的数据,要想办法进行及时补充。有时,为了插补残缺的有关地理数据,经常需要运用有关数学方法。
第二节 地理数据的初步整理 一、几个基本概念 总体:数据来源的范围。 从一个集合中选取一部分元素,对这部分元素的某些数量指标进行测量,根据测量获得的这些数据来推断这集合中的全部元素的这些指标的分布情况(包括这些指标的某些特征数字)。称全部元素组成的集合为总体(或母体),称组成总体的每个元素为总体单元(或个体)
定义1. 总体(母体)是指研究对象的全体。组成总体的每个元素叫做总体单元(个体)。 自然总体:由客观存在的具有相同性质的许多个别事物构成的整体。 测量总体:个体所具有共同属性的数值的整体。 有限总体:组成总体的个体数量是有限个。 无限总体:
样本:总体中的一部分个体所构成的整体。 为研究总体数量指标的取值规律(分布律),常常从总体中抽出一部分单元,对这些单元的标志值进行观察,利用这些观察结果对总体的分布进行推断。抽出的这部分单元组成的集合称为样本,抽出的每一个单元叫做样本单元,抽出的单元个数叫做样本容量。抽出一部分单元的过程叫做抽样。假设总体标志为,样本单元数为,观测到的样本单元的标志值记为,则称为总体的容量为的一个样本。其中应视为维随机变量。抽样得到的具体结果叫做样本观察值。
自然样本:在自然总体中选取的部分个体所组成的集合。自然样本:在自然总体中选取的部分个体所组成的集合。 测量样本:自然样本中的所有个体的测量数据的整体。 统计:包括统计活动、统计资料、统计学 统计活动:是指各国政府或其他机构为满足政治、经济、社会等方面的需要以及科学研究的需要而进行的收集、整理、分析、编制有关数据的一系列活动。这些活动包括统计调查、统计整理、统计描述、统计分析和数据显示等过程。
统计资料:指由统计活动产生的原始的或已经加工、整理过的客观现象的数据资料,它是统计活动的成果。统计资料:指由统计活动产生的原始的或已经加工、整理过的客观现象的数据资料,它是统计活动的成果。 统计学:是研究客观现象数量关系及其变化规律的方法论科学,是一门关于统计资料的收集、显示、描述和分析方法的学科。
二、资料的初步整理 (一)使用统计表进行整理 统计表是用来表达统计指标与被说明的事物之间数量关系的表格。它可以将大量数据的分类结果,清晰、概括、一目了然的表达出来,明显地反映出事物的全貌及其蕴涵的特性,省去冗长的文字叙述,便于分析、比较、计算和记忆。 1.统计表的结构及编制 统计表一般由标题、表号、标目、线条、表注等项构成。
(1)标题 标题是表的名称,应确切地、简明扼要地说明表的内容。标题应写在表的上方。必要时,应在标题下注明资料的来源(地点、单位)和时间。
(2)表号 表号是表的序号。若文章中有几张表,则需按它们出现的先后次序编上序号,并写在标题的左方。 (3)标目 标目是表格中对统计数据分类的项目。按标目在表中的位置,可分为横标目和纵标目。位于表的左侧者为横标目,因为它与所指明的数字在同一横行;位于表的上端者为纵标目,因为它与所指明的数字在同一纵列。必要时可在横标目和纵标目的上方加上适当的总标目。横标目是要说明的对象,纵标目是要说明的统计指标。如纵标目比较复杂,可将一部分内容移到横标目上去。
(4)线条 线条不宜过多。顶线、底线、隔开纵标目与数字的横线,是表的基本线条。表的左上角不宜有斜线,表的中间不要有横线,表的左右两侧不要用纵线封闭。 (5)数字 表内数字必须准确,一律用阿拉伯字母表示,位次对齐,小数的位数一致。表内不应有空格。暂缺或未记录可用“…”或“……”表示,无数字用“—”表示,数字若是“0”,则应填写“0”。 (6)表注 它不是表的必要组成部分。若确有必须补充说明的问题,可用简短的小号字写在表的下方。
2、统计表的种类 (1)简单表 横标目和纵标目只有一个对象的表格,称为简单表
(2)复合表 横标目和纵标目包含两层以上对象的表格,称为复合表。
(二)用统计分组进行整理 所谓统计分组就是根据研究的需要,将总体按照一定的标志划分为若干个组成部分的方法。 步骤: ①按照研究目的,选择一个或一个以上的分组标志,对调查资料进行分组; ②编制适当表格以便汇总资料; ③将资料逐一进行计数和加总。
1、按品质标志分组 按品质标志分组可以将统计资料划分若干个性质不同的组成部分,可以区别个体之间的不同属性。 频数分布表:频数分布通常用表格的形式表示。 由两部分构成:一部分是分组形成的各个组别;另一部分是每一组出现的次数,称为频数或频率。 频率:各组的频数与总的频数相比的比率。 在进行分组时,要注意划分清楚各组的界限,使每一数据只能属于惟一一组,即要遵循“互斥”原则;同时,也不能使数据有所遗漏,所有的数据都要属于某一组,即要遵循“穷尽”原则。
2、按数量标志分组 选择数量标志为分组标志,就是将总体按数量的差异划分为具有不同数值的组成部分,以便反映出各组别在数量上存在的差异。 (1)单项式分组 当整理的是标志值较少且变动范围不大的数据资料时,一般选择进行单项式进行分组,所形成的分布称为单项式频数分布。即把标志值按大小顺序一一排列出来,将每一个标志值作为一组,与相应的统计数构成一个表格。
(2)组距式分组 组距式分组的方法是,首先选择某一数量标志,然后按标志值的大小分为不同的组别,在每一组中都包括若干个标志值,最后将每一组别出现的次数累计加总,由此形成的分布就是组距式频数分布。
例2,如140个年级的总学生人数如表所示,计算频数。例2,如140个年级的总学生人数如表所示,计算频数。
① 数据排序:首先对数据按大到小排列或从小到大排列。 ②求极差:所有数据中的最大观察值和最小值观察值的差值。亦即整个样本的变异幅度。极差=254-75=179 ③确定组数和组距
样本容量与组数多少的关系 美国统计学家斯特吉斯提供的公式为: 式中,K代表组数,N代表数据总数。
组距为组与组之间的数值距离,可根据极差确定。组距=极差/组数。组距为组与组之间的数值距离,可根据极差确定。组距=极差/组数。 查表,为8~16组,假定为12组,则组距=179/12=14.9,可近似取15。 ④选定组限和组中点值 每组应有明确的界限,才能使各个观察值划入一定的组内。 首先要选定第一组的中心值,则该组组限确定,其余各组的中心值和组限也可确定。第一组的中心值以最接近最小观察值为好,这样可避免第一组内次数过多。
选定第一组的中心值为75,与最小观察值75相等。则第二组的中心值为75+15=90,余类推。选定第一组的中心值为75,与最小观察值75相等。则第二组的中心值为75+15=90,余类推。 中心值选定后,求组限。组限有下限和上限。 下限=该组中心值–1/2组距。即75-(15/2)=67.5; 上限=该组中心值+1/2组距。即75+(15/2)=82.5
(三)统计图 统计图是用来表达统计指标与被说明的事物之间数量关系的图形。统计图以直观形象的形式表达出事物的全貌及其分布特征,使人一目了然,便于理解,印象深刻,容易记忆。 1、统计图的结构及绘制原则 统计图由标题、图号、标目、图形和图注等项构成。 (1)标题 图的名称应简明扼要,切合图的内容,必要时可注明时间、地点。图题的字体在图中为最大,自左向右写在图的下方。
(2)图号 文章中若有几幅图,则需按其出现的先后次序编上序号,写在图题的左前方。 (3)标目 对于有纵横轴的统计图,应在纵横轴上分别标明统计项目及其尺度。横轴是基线,一般表示被观察的现象,尺度要等距,自左向右写在图的下方。 (4)图形 图形为统计图最重要的部分。图形的高与宽之比以3:5为宜。一幅图中若有几个图形线,可在图例的适当位置加以标明。
(5)图注 图注不是图中的必要组成部分。图中若有必须加以解释的地方,可用图注加以说明。图注的文字要简明扼要,字体要小,写在图题的下方。 2、统计图类型 (1)表示间断数据的统计图 ①直条图 直条图是用直条的长短表示统计数据的图形。主要用来比较性质相似的间断性资料。按图形中被比资料的组数不同,可分为单式或复式两种。
②饼图 饼图用来表示间断性资料构成比的图形。 此外,表示间断性数据的图形还有面积图,柱状图、散点图、圆环图等。
(2)表示连续性数据的统计图 ① 折线图 ② 直方图
第三节 数据的基本统计值 一、表示数据集中趋势的特征量 (一)算术平均数(arithmetic mean) 算术平均数是所有观察值的总和除以观察值的个数,简称为平均数或均数。 算术平均数的计算方法: 样本较小: 样本较大: yi:为第i组的中心值,fi:第i组变数出现次数
(二)调和平均数 调和平均数就是数据倒数平均数的倒数,其计算公式如下: 如果是加权形式则为: 式中, 表示调和平均数, 是第个数据的权数。
调和平均数是适应某些比率形式的数据而计算的平均数调和平均数是适应某些比率形式的数据而计算的平均数 例3,某市场三种蔬菜的销售价格和销售金额资料如表所示。求三种蔬菜的平均价格。
(三)几何平均数 对上式两边取对数
也可用下式: 例如,表为各国原煤生产量,计算年平均发展速度