850 likes | 1.01k Views
地图分析与应用 Map Analysis and Applications. 李飞雪 南京大学地理信息科学系. 数据概括相同,空间模式不同. 数据分析的缺点. 以经典统计理论为基础. 标准正态分布. 缺失位置信息. 空间数据很少符合正态分布. 位置信息非常重要. 依赖( Dependence )是一种规律( rule ) 空间相互作用、空间外部性、空间溢出等. 空间尺度非常重要. 空间依赖性( Spatial Dependence ).
E N D
地图分析与应用 Map Analysis and Applications 李飞雪 南京大学地理信息科学系
数据分析的缺点 以经典统计理论为基础 标准正态分布 缺失位置信息
空间数据很少符合正态分布 位置信息非常重要 依赖(Dependence)是一种规律(rule) 空间相互作用、空间外部性、空间溢出等 空间尺度非常重要
空间依赖性(Spatial Dependence) 变量Y在第i个空间单元上的观测值由该空间系统中其他空间单元上的观测值通过函数f表达,i∈S,S是所有空间单元的集合。
空间依赖性的产生原因 空间相互作用 测量误差
空间异质性(Spatial Heterogeneity) i代表空间观测单元,fi表示因变量yi与自变量xi、参数向量i和误差项i之间具体的函数关系。
(A) (B) (C) I =-1.000 I =-0.393 (D) (E) I =0.000 I =+0.393 I =+0.857 空间模式的量化
空间统计分析 • 空间统计分析,即空间数据(spatial data)的统计分析,是现代计量地理学中一个快速发展的方向和领域。 • 空间统计分析,其核心是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。
地理学第一定律 • 地球表面上的事物或现象之间存在着某种联系,并以相似或差异的方式表现出来。 • Tobler(1970) “地理学第一定律”描述了这样性质:“所有的事物或现象在空间上都是有联系的,但相距近的事物或现象之间的联系一般较相距远的事物或现象间的联系要紧密”。 • 在空间统计学中,相似事物或现象在空间上集聚(集中)的性质称之为空间自相关(Spatial autocorrelation)。空间上的相关性或关联性(Spatial associatiaon)是自然界存在秩序与格局的原因之一(Goodchild 1986)。
地理学第一定律 • 在地理学中,每一个空间位置上的事物(现象)都具有区别于其他位置上的事物(现象)的特点,这种差异性被称为空间异质性(Spatial heterogeneity)(Anselin 1988)。 • 与地理学第一定律所描述的空间依赖性相对应,Goodchild(2003)将空间异质性总结为“地理学第二定律”。 • Goodchild在2003年的UCGIS年会上做了一场题为“地理信息科学基本定律(The Fundamental Laws of GIScience)”的报告。在该报告中,Goodchild将“空间异质性”概括为地理学第二定律(the Second Law of Geography)。
基本分析方法/分析指标 • 空间权重矩阵 • 空间权重矩阵是对空间邻接关系的定义,是空间统计分析运算的基础之一。 • 全局空间自相关 • 局部空间自相关
空间权重矩阵 • 空间权重矩阵(spatial weight matrix) • 对空间邻居(spatial neighborhood)或邻接关系的描述,通常定义一个二元对称空间权重矩阵W,来表达n个位置的空间区域的邻近关系。 • 目前对于空间权重指标的构建,主要基于两类特征:连通性(Continuity)和距离(Distance)。此外,还可以通过面积、可达度等方式对空间权重指标进行构建。
空间权重矩阵(spatial weight matrix) • 基于连通性特征的空间权重指标,又可以称为空间邻接指标。 • 三种基本的空间邻接定义方式:考虑横纵方向邻接关系的“卒”型、考虑对角线方向邻接关系的“象”型以及综合考虑上述方向的“后”型。 • 空间邻接影响不仅仅局限于两个单元的相邻,一个空间单元还可通过相邻单元对外围非相邻单元产生影响,对于这类影响可以通过设定空间二阶乃至高阶邻接指标进行表达。
空间权重矩阵(spatial weight matrix) • 基于距离特征的空间权重指标,又可以称为空间距离指标。 • 空间距离指标选择空间对象间的距离(如反距离、反距离平方值、距离负指数等)定义权重矩阵。 • 如Cliff和Ord曾提出的Cliff-Ord空间权重指标,即是将距离作为指标定义的一部分。 • ,i = 1,2,…,n;j = 1,2,…,n • 其中,dij为空间对象间的距离,βij为空间对象共享边界的长度,a、b为两类距离的权重调整系数。
空间权重矩阵(spatial weight matrix) • 空间数据集中不同实体单元间存在不同程度的空间关系,在实际使用中,一般通过矩阵形式给出空间逐点的空间权重指标,称为空间权重矩阵。 W是一个nn的正定矩阵,矩阵的每一行指定了一个空间单元的“邻居集合”。 一般地,面状观测值用连通性指标:若面状单元i和j相邻,则wij=1;否则,wij=0。 点状观测值用距离指标:若点i和j之间的距离在阈值d以内,则wij=1;否则, wij=0。 通常约定,一个空间单元与其自身不属于邻居关系,即矩阵中主对角线上元素值为0。
在实际应用中,一般根据以下两种规则定义邻居:在实际应用中,一般根据以下两种规则定义邻居: • 公共边界 • 如果第i和第j个空间单元具有公共边界,则认为它们是邻居,空间权重矩阵中的元素为1;否则,不是邻居,元素为0。 • 距离 • 如果第i和第j个空间单元之间的距离位于给定的临界距离d之内,则认为它们是邻居,空间权重矩阵中的元素为1;否则,不是邻居,元素为0。 • Cliff-Ord广义空间权重矩阵 其中dij是i和j之间的距离,bij是i和j之间的公共边界占i周长的比例。
全局空间自相关统计指数 空间自相关度量的意义 发现空间分布模式 如何度量?
全局空间自相关(global spatial autocorrelation) 主要描述整个研究区域上空间对象之间的关联程度,以表明空间对象之间是否存在显著的空间分布模式。 (Cliff and Ord, 1981) 全局空间自相关分析主要采用全局空间自相关统计量(如Moran’s I、 Geary’s C、General G)进行度量。
全局空间自相关统计指数 • Moran’s I Moran’s I 统计量是一种应用非常广泛的空间自相关统计量,它的具体形式如下(Cliff and Ord,1981): 其中,xi表示第 i个空间位置上的观测值, ,wij是空间权重矩阵W(n×n)的元素,表示了空间单元之间的拓扑关系,S0是空间权重矩阵W的所有元素之和。 反映的是空间邻接或空间邻近的区域单元属性值的相似程度。
用矩阵形式表示如下: 其中,X是 xi与其均值的离差向量(n×1),W是(n×n)的空间权重矩阵,S0含义同上。
Tabulated lattice data Adjacency matrix, W I=0.0317. If this value is close to 0 there is very little spatial autocorrelation, which is what we have found in this example
Moran’s I 的检验 对观测值在空间上不存在空间自相关(或独立、随机分布)这一原假设进行检验时,一般根据标准化以后的Moran’s I 值或 z 值,即: 在统计推断的过程中,通常需要对变量x的分布做出假设。 一般分两种情况:一是假设变量 x 服从正态分布;二是在分布未知的情况下,用随机化方法得到 x 的近似分布。 通过在正态或随机两种分布假设下得到I的期望值和方差来分别进行假设检验。
在正态分布假设下,Moran’s I 的期望值和方差分别为: 式中 和 分别是空间权重矩阵 W的第 i行和第i列元素之和
在随机分布假设下,Moran’s I 的期望值和方差分别表示为: 式中 其他符号同上。
通常将Moran’s I 解释为一个相关系数,取值范围从-1到+1。0< I <1表示正的空间自相关,I = 0表示不存在空间自相关,-1< I <0表示负的空间自相关。 当Moran’s I 显著为正时,存在显著的正相关,相似的观测值(高值或低值)趋于空间集聚。 当Moran’s I 为显著的负值时,存在显著的负相关,相似的观测值趋于分散分布。 当Moran’s I 接近期望值(-1/(n-1),随着样本数量的增大,该值趋于0)时,表明不存在空间自相关,观测值在空间上随机排列,满足经典统计分析所要求的独立、随机分布假设。
随机检验(Permutation test) 在不存在空间自相关的假设下,观测值x1,…,xn可被认为是观测值被随机分配到n个空间位置上的一次随机过程。当观测值为n时,可能的空间组合次数为n!,这n!次随机排列构成观测值在原假设条件下的分布。根据这一分布,可以得到统计量的期望值和方差。 • 蒙特卡罗检验( Monte Carlo test ) 当n比较大时,这些观测值的随机排列的组合数非常大。通常情况下是利用k个随机数生成方法来构建一个经验的原始分布。 当k=99时,可以满足5%显著性水平下的检验;当k=999次,可以满足1%显著性水平的检验。k值越大,经验分布越接近原假设下的分布状态。可以根据这种经验分布来检验一个观测值的出现是否为“小概率事件”,从而判断是拒绝还是接受原假设。
Geary’s C Geary’s C 也是一种较常用的空间自相关统计量,其结果解释类似于Moran’s I(Cliff and Ord 1981)。其形式为: 对该统计量的统计推断也是根据相应的标准化Z值。
在正态分布假设下,Geary’s C 的期望值和方差分别为: 在随机分布假设下,Geary’s C的期望值和方差分别表示如下: 式中符号同Moran’s I的期望和方差公式。
Geary’s C 总是正值,取值范围一般为 0 到 2 之间,且服从渐近正态分布。 当Geary’s C小于 1 时,表明存在正的空间自相关。 当Geary’s C大于 1 时,表明存在负的空间自相关。 当Geary’s C 值为 1 时,表明不存在空间自相关,即观测值在空间上随机排列 。
General G 统计量 Moran’s I 和Geary C 统计量均可以用来表明属性值之间的相似程度以及在空间上的分布模式,但它们并不能区分是高值的空间集聚(高值簇或热点(hot spots))还是低值的空间集聚(低值簇或冷点(cold spots)),有可能掩盖不同的空间集聚类型。Getis-Ord General G 统计量则可以识别这两种不同情形的空间集聚(Getis and Ord,1992;O’Sullivan and Unwin,2003)。 式中, wij(d)是根据距离规则定义的空间权重; xi和xj含义同上。 对General G 的统计检验采用下式:
在空间不集聚的原假设下,General G 的期望值和方差分别是: 其中,
当General G 值高于E(G),且Z值显著时,观测值之间呈现高值集聚。当General G 值低于E(G),且Z值显著时,观测值之间呈现低值集聚。当General G 趋近于E(G)时,观测值在空间上随机分布。
Gamma()统计量 Gamma()统计量由空间相似性矩阵(W)和属性相似性矩阵(Y)对应元素的交叉积构造而成(Hubert et al., 1981),是大多数空间自相关检验统计量的一般形式(Florax et al., 2004)。该统计量的表达式为: 其中,空间相似性矩阵可以采用空间权重矩阵形式,其元素wij表达位置i和j之间的空间相似性(spatial similarity)或空间关系。 而属性相似性矩阵Y及其元素yij可以采用不同的形式(如欧几里德距离、曼哈顿距离等)。
当在属性相似性矩阵Y中采用不同的方式度量观测值之间的空间关联时,可以得到不同的空间自相关统计量。当在属性相似性矩阵Y中采用不同的方式度量观测值之间的空间关联时,可以得到不同的空间自相关统计量。 例如,当矩阵Y中的元素为两个观测值的乘积,即 时,可以得到类似Moran’s I的统计量。 当矩阵Y中的元素为两个观测值的差的平方和,即 时,可以得到类似Geary’s C的统计量。
局部空间自相关(Local spatial autocorrelation) 全局空间自相关统计量建立在空间平稳性这一假设基础之上,即所有位置上的观测值的期望值和方差是常数。然而,空间过程很可能是不平稳的,特别是当数据量非常庞大时,空间平稳性的假设就变得非常不现实(Ord and Getis,1992,Anselin,1995)。 局部空间自相关统计量可以用来识别不同空间位置上可能存在的不同空间关联模式(或空间集聚模式),从而允许我们观察不同空间位置上的局部不平稳性,发现数据之间的空间异质性,为分类或区划提供依据(Getis and Ord,1992 1996;Ord and Getis,1995; Anselin,1994,1995)。
G统计量 Getis和Ord(1992)提出了度量每一个观测值与周围邻居之间是否存在局部空间关联的G统计量。 该统计量是某一给定距离范围内邻居位置上的观测值之和与所有位置上的观测值之和的比值,能够用来识别位置i和周围邻居之间是高值还是低值的集聚。 若不包括i位置上的观测值,则为Gi统计量;若包括i位置上的观测值,则为Gi*统计量。 Gi和Gi*统计量的具体形式分别为:
在不存在空间依赖性的原假设下,即位置i上的观测值与周围邻居的观测值xj之间在空间上是独立的,Gi和Gi*的期望值分别为:在不存在空间依赖性的原假设下,即位置i上的观测值与周围邻居的观测值xj之间在空间上是独立的,Gi和Gi*的期望值分别为: Gi和Gi*的方差分别为: 其中,
在不存在空间自相关的原假设(即Gi = 0或Gi* = 0)下,Gi和Gi*服从渐近正态分布(Ord and Getis,1992)。 因此,这两个统计量的统计检验可以根据相应的标准化形式: , (j ≠ i) 其中, (所有j)
如果Z值为正,且非常显著,则表明位置i周围的值相对较大(高于均值),高值空间集聚。如果Z值为正,且非常显著,则表明位置i周围的值相对较大(高于均值),高值空间集聚。 如果Z值为负,且非常显著,则表明位置i周围的值相对较小(低于均值),低值空间集聚。 因此,G统计量可以用来识别高值或低值的空间集聚模式。
局部空间自相关统计指数 • Moran’s I等空间自相关指数反映的是空间整体的自相关,一般“侧重于研究区域空间对象某一属性取值的空间分布状态”。 • 在一个存在全局空间自相关的样本中,可能存在局部的随机性,或是在全局随机分布的样本中,也可能存在局部的空间关联。 • 因此,需要能够识别局部不平稳的局部空间空间自相关统计量。
局部空间自相关统计指数 • Moran’s I等空间自相关指数反映的是空间整体的自相关,一般“侧重于研究区域空间对象某一属性取值的空间分布状态”。 • 实际研究中,空间自相关的分布是不均匀的,个别局域对象的属性取值对全局分析对象的影响非常显著。 • 因此,有必要进行局域空间自相关指数计算,分析某一空间对象取值的邻近空间聚类关系、空间不稳定性及空间结构框架。 • 特别是,当全局自相关分析不能够检测区域内部的空间分布模式时,局域空间自相关分析能够有效检测由于空间自相关引起的空间差异,判断空间对象属性取值的空间热点区域或高发区域等,弥补全局空间自相关分析的不足。
LISA统计量 • 局部空间关联指标(Local Indicators of Spatial Association,LISA)并不是特指某一个统计量,所有同时满足下面两个条件的统计量都可以认为是局部空间关联指标(Anselin,1995)。 • 每一个观测值的LISA表示该值周围相似观测值在空间上的集聚程度。 • 所有观测值的LISA之和与全局空间关联度量指标之间成比例。
这样,LISA可以表达某个位置i上的观测值与周围邻居观测值之间的关系。具体表示如下:这样,LISA可以表达某个位置i上的观测值与周围邻居观测值之间的关系。具体表示如下: 其中,Li表示位置i上的统计量,f是一个函数形式,yi是位置i上的观测值,Ji表示位置i周围的所有邻居集合,yJi是邻居Ji上的观测值。 位置i上的所有邻居通过空间权重矩阵(W)表示,如W中第i行上所有非0元素对应的列,即构成位置i的邻居集合Ji。
LISA主要有两个目的: • 识别局部的空间集聚(spatial clusters)或热点(hot spot)。 • 识别局部的非平稳性。 • 若某个位置上的LISA非常显著,则可将该位置看作热点。若某个位置上的LISA与均值之间的差距非常大,即该位置对全局统计量的贡献超过了它的预期份额,则可将该位置看作是异常点或强影响点(如与均值之差超过2个标准差)(Anselin,1995)。
局部Gamma() • 其中,aij和bij的含义同 统计量,分别表示空间相似性和属性相似性。 • 空间相似性可以通过空间权重矩阵(W)度量;属性相似性可有不同的度量方式,分别对应不同的局部空间关联统计量。 • 当bij = zi zj时,则对应局部Moran’s I 统计量;当bij =(zi - zj)2时,则是局部Geary’s C 统计量。
局部Moran’s Ii 每一个观测值i的局部Moran’s Ii统计量的定义如下: 其中,zi和zj是观测值的均值标准化,即 式中空间权重矩阵元素wij采用行标准化形式,即