580 likes | 752 Views
判别分析法预测 ( Discriminant Analysis ). 中国地质大学 ( 武汉 ). 资源学院. 第九讲. SPOOD. 陈志军. zjchencs@gmail.com. 主要内容. 第一节 引言 第二节 费歇两组判别 第三节 贝叶斯多组判别 和逐步判别的基本概念. 第一节 引言. 预处理. 特征提取. 训练(学习). 橙子. 桔子. 这是一个学习和预测的过程。. 回归分析 —— 定量预报 判别分析 —— 定性预报. 模式识别. 在许多自然科学和社会科学问题的研究中,我们所关心的不是样品的某一指标数值的多少,而是其类别、归属。.
E N D
判别分析法预测(Discriminant Analysis) 中国地质大学(武汉) 资源学院 第九讲 SPOOD 陈志军 zjchencs@gmail.com
主要内容 第一节 引言第二节 费歇两组判别第三节 贝叶斯多组判别 和逐步判别的基本概念 YOUR SITE HERE
第一节 引言 YOUR SITE HERE
预处理 特征提取 训练(学习) 橙子 桔子 这是一个学习和预测的过程。 YOUR SITE HERE
回归分析——定量预报 判别分析——定性预报 模式识别 在许多自然科学和社会科学问题的研究中,我们所关心的不是样品的某一指标数值的多少,而是其类别、归属。 生物学:各类性状→物种类别 医学:各类症状→SAS、猪流感 地质学:岩石分类、地层时代、断层性质、有矿无矿预测 气象学:天气预报是晴、阴、雨? YOUR SITE HERE
在地学领域中,经常面临着大量的分类问题,即对一定量的事物(如地质体、样品或变量)按其属性进行归类。 在地学领域中,经常面临着大量的分类问题,即对一定量的事物(如地质体、样品或变量)按其属性进行归类。 由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和联系,难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。 YOUR SITE HERE
在对地质对象的类型研究中,有两大类方法。 一类是聚类分析(或称点群分析,群分析) 另一类就是判别分析。 判别分析的主要思想是用统计方法将待判的未知样品与已知类型的样品进行(定量)类比,以确定待判样品应归属于其中哪一类。 YOUR SITE HERE
全碱-硅图解(TAS) YOUR SITE HERE
最简单的情形下,单就一个变量的值就可区分不同的类别。最简单的情形下,单就一个变量的值就可区分不同的类别。 但是,通常情况下,一个变量往往难于区分不同的分类,只有利用多个变量,才能比较全面从各个不同的角度刻画个母体间的差异。 用适当的数学方法从多个变量中提出有关判别分类的有效信息,综合成一个像单变量那样好用的判别标准。 在传统的地质学研究中,四元以上的系统用几何图形表示变得十分困难。 YOUR SITE HERE
判别分析法所要解决的问题是对样品的分类,其特点为:在已知研究对象的条件下,确定未知对象属于已知分类中的哪一类。判别分析法所要解决的问题是对样品的分类,其特点为:在已知研究对象的条件下,确定未知对象属于已知分类中的哪一类。 在包括矿床预测在内的各类地质研究中,经常遇到这类问题。 判别分析中的“类比法”思想与传统地质学中所用类别法的不同: ①定量;②综合考虑多种因素或标志;③以某种最优化准则作分类基础 YOUR SITE HERE
x2 ↑ 闪长玢岩出露面积比 训练样本 有矿否? A总体,有矿 B总体,无矿 →x1 磁异常指数对数值 YOUR SITE HERE
x2 ↑ 闪长玢岩出露面积比 磁异常指数对数值 →x1 YOUR SITE HERE
判别分析特点:定量类比、定性预报 判别分析也是一种类比法,它是从定量角度,综合考虑多种地质变量或标志,按照某种最优化判别准则作为分类基础,来进行分析的。其判别准则分为两类: 费歇准则(R.A.Fish,1936)和贝叶斯准则。 YOUR SITE HERE
第二节 费歇两组判别 YOUR SITE HERE
费歇判别的基本思想 费歇判别思想是投影,使多维问题简化为一维问题来处理。 选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。 YOUR SITE HERE
R = c1x1 + c2x2 R0 所谓Fisher判别法,是一种先投影,后用距离判别的方法。 寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。 可以看出,如果向其他方向投影,判别效果不会比这个好。 YOUR SITE HERE
一、费歇准则准则与准则下的两类判别线性模型一、费歇准则准则与准则下的两类判别线性模型 考虑指标与p个自变量有关的两类判别:设指标y按其取值范围只分为A、B两类,对A、B两类分别有nA,nB个样品数据。 Fisher提出,建立p个因子的一个线性判别函数 其中判别系数cj(j=1,2,..,p)的选择应使得y值满足: (1)A类与B类这两类点群尽可能地远离, 即两类点群重心间距离尽可能达到最大; (2)同一类的样品点尽可能集中。 [(1)(2)两点统称为Fisher准则] YOUR SITE HERE
组间离差平方和(尽可能大) 样本总离差平方和(尽可能小) 其中 YOUR SITE HERE
要同时满足费歇判别准则的两个条件,要求 达到最大 YOUR SITE HERE
二、两类判别函数的参数估计 I是y的函数,也是cj的函数。 根据极值原理,I取极大值的条件是 I对系数cj的偏导数为0,即: (j=1,2,3,…,p) 等价于: (因为 lnI = lnG– lnH) YOUR SITE HERE
其中, =L-1D (i,j=1,2,…,p) (j=1,2,3,…p) 于是,可得线性判别函数为: YOUR SITE HERE
三、确定临界值及对新样品作出判别 当判别函数求出后,可进一步求得: 类平均值 于是,判别临界值 可进一步可导出 YOUR SITE HERE
将新样品的各变量观测值代入判别函数,求得相应的函数值y(判别得分)将新样品的各变量观测值代入判别函数,求得相应的函数值y(判别得分) YOUR SITE HERE
四、判别效果的分析和检验 所建立的判别函数是否有实际意义,判别效果有无实用价值,准确度如何,同样需用作检验分析。 (1)总体差异的显著性检验 判别分析中,首先要求假定两类样品来自有显著差异、可区别的总体,两总体的均值应有显著差异。 (2)各因子(判别变量)的重要性检验 可以通过其两类样本均值之差来衡量 为消除因子量纲的影响,通常在求得判别系数后,可将其标准化后再检验 cj* = cj/sj YOUR SITE HERE
马氏距离(Mahalanobis马哈拉诺比斯距离) 设xi,xj是服从均值为μ,协方差为Σ > 0的总体Xpx1抽取的样品,则称 为p维空间上点xi,xj之间的广义(统计)距离,亦称马氏距离 YOUR SITE HERE
特别地,当 (方差加权) 当Σ=Ip,有 (欧式距离) YOUR SITE HERE
总体差异的显著性检验 YOUR SITE HERE
实际中常用回判法来评价判别函数的有效性。 用所建立的差别函数对两总体的已知样本进行回判,并将判别结果,与已知结果对比,计算判错率,当判错率<20%,认为判别函数有效。 误判率(A) = 误判率(B) = YOUR SITE HERE
实 例 YOUR SITE HERE
基于GIS技术的矿产资源评价分析系统 YOUR SITE HERE
GIS技术支持下单元划分 YOUR SITE HERE
各单元变量取值与处理 192 177 控制区 17 32 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 GIS技术支持下控制区确定、变量取值与处理 对各单元进行编号 YOUR SITE HERE
①确定目标→设置指标变量→收集数据→ 已知含矿单元 对实际问题进行多元统计的建模过程 已知无矿单元 自变量:各种控矿地质因素或找矿标志 因变量:矿床值(矿化强度优劣、矿床储量) 控制区(模型区)单元 ②建立模型→估算模型参数 →模型检验与修改(包括:a.模型地质意义检验;b.统计上的假设检验和)→ 预测区单元 ③模型应用 预测 YOUR SITE HERE
4. 应用实例。 研究区:宁芜盆地北段 预测对象:玢岩型铁矿。 预测比例尺:1:50,000 单元划分:全区划分为3× 单元100个。 (1)根据研究区的地质勘探情况,该区有8个单元为已知有矿单元,14个单元为已知无矿单元,另外78个单元为未知待判单元。 因此,令已知有矿单元为A总体,NA=8 YOUR SITE HERE
令已知无矿单元为B总体,NB=8,剩余6个作为回判检验.令已知无矿单元为B总体,NB=8,剩余6个作为回判检验. (2)建立数学模型,即判别分析函数, 经过控矿地质因素分析,选出7个与成矿关系密切的变量参加建模, x1——接触带长度, x2——单元中心与断裂喷发带的距离。 x4——闪长玢岩出露面积, x5——围岩蚀变组合的相对熵值, x9——磁异常特征值, YOUR SITE HERE
x10——重力异常特征值, x12——岩层组合的相对熵。 最终建立判别函数: R=0.0247X1-1.2246X2-0.036X4+0.041X5+0.1540X9- 0.008X10-0.0267X12 (3) 确定判别临界值。 A总体的判别得分 B总体的判别得分 ∴R0=-1.5885 YOUR SITE HERE
(4) 显著性检验。 i) 对已知单元进行回判,判对率93.3%,说明R0是显著的,所建立的判别函数有效。 ii)马氏检验。 F=2.833, 而 ∴ ∴判别函数在α=0.1的显著性水平上有效。 YOUR SITE HERE
(5)对未知单元进行判别,预测。 结果,有22个单元的R>R0,判为A类,为有矿远景单元。 (6)对22个有利远景单元的控矿条件和找矿潜力进行评价,分析。 通过分析发现,这些单元多数位于NE向断裂和NW向断裂火山喷发带内。而这两个带已被证明是本区重要的成矿条件,另外,这22个单元之中,有的已经发现了矿点,有些在空间上与已知矿床相邻,因而,认为这些单元具有良好的成矿条件和较大的成矿潜力。 YOUR SITE HERE
第三节 贝叶斯多组判别 和逐步判别的基本概念 YOUR SITE HERE
贝叶斯统计的基本思想 假定为所研究的对象(总体)在抽样前已有一定的认识,常用先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验概率分布,再基于后验概率分布作各种统计推断。 将贝叶斯统计的思想应用于判别分析,就得到贝叶斯判别方法。 YOUR SITE HERE
费歇准则是对p维空间两点群寻找最优分割面(选择一个适当的投影轴 ,使多维问题简化为一维问题来处理 ); 而贝叶斯准则是为p维空间两(多个)点群寻找最优的空间划分方法。 寻找最优的空间划分方法,实际上也是要建立一个判别函数,但这函数应能满足误判平均损失最小的原则。 Pattern Classification By R. O. Duda, et al. YOUR SITE HERE
k个p维总体: G1,G2,…,Gk 分别具有不同的p维概率密度函数: f1(x),f2(x),..,fk(x)。 在进行判别之前,确定 先验概率分布:q1,q2,…,qk, 有 一个合理的判别准则应该考虑到每个总体出现的可能性大小(即先验概率分布),还应考虑误判造成的损失问题。 误判损失:c(j|i) 表示将实际属于Gi的样品判归为Gj所造成的损失度量。误判的损失通常在判别分析前就可以估计。 YOUR SITE HERE
一个判别准则(对Rp空间的一个划分): D=(D1,D2,…,Dk)。 误判概率:P(j|i,D) 表示在判别准则D下将事实来自Gi的样品误判为来自Gj的概率。 由此误判而造成的损失为c(j|i) (j=1,2,…,k, j≠i)(误判损失),因此,在一个给定的判别准则D之下,对Gi而言所造成的损失,应该误判为G1, …,Gi-1,Gi+1,..,Gk的所有损失。 YOUR SITE HERE
平均误判损失函数ECM (Expected Cost of Misclassification) 按照各误判概率加权求和,即在此判别准则D下,将来自Gi的样品错判为其他总体的期望损失为(注意c(i|i)=0) 又由于各总体Gi出现的先验概率为qi(i=1,2,…,k),故在判别准则D之下总的期望损失为 YOUR SITE HERE
平均误判损失函数L与判别准则D有关,贝叶斯判别即选择D=(D1,D2,…,Dk),使L达到最小。平均误判损失函数L与判别准则D有关,贝叶斯判别即选择D=(D1,D2,…,Dk),使L达到最小。 YOUR SITE HERE
将样品空间Rp划分为k个两两互斥的子空间,存在各种划分方法,任何一种划分都可能存在着错分现象,错分就会造成损失。显然,人们希望在某种空间划分下,使总的错分损失最小。将样品空间Rp划分为k个两两互斥的子空间,存在各种划分方法,任何一种划分都可能存在着错分现象,错分就会造成损失。显然,人们希望在某种空间划分下,使总的错分损失最小。 贝叶斯准则 在给定母体先验概率时,划分空间使错分平均损失最小的原则。 贝叶斯准则又称为以指定具有较高后验概率的母体作为判别个体X归属的准则。 YOUR SITE HERE
两种准则下的判别分析的选择 YOUR SITE HERE
有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量。有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。也就是,一边判别,一边引进判别能力最强的变量。 这个过程可以有进有出。 一个变量的判别能力的判断方法有很多种,主要利用各种检验,例如: Wilks’ Lambda、Rao’s V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations 等检验。 这些不同方法可由统计软件的各种选项来实现。逐步判别的其他方面和前面的无异。 逐步判别法 (仅仅是在前面的方法中加入变量选择的功能) YOUR SITE HERE