970 likes | 1.2k Views
因子分析与地质成因解释 ( Factor Analysis ). 资源学院. 第十三讲. SPOOD. 陈志军. zjchencs@gmail.com. 主要内容. 第一节 引言 第二节 主成分分析 第三节 因子分析 第四节 对应分析. YOUR SITE HERE. 第一节 引言. YOUR SITE HERE. 因 果. 执果析因. 由因索果. 因子分析. 回归分析. YOUR SITE HERE. 方阵的特征值和特征向量. 对于 n 阶方阵 A. A x = l x. 特征向量 n 维非零向量. 特征值 实数
E N D
因子分析与地质成因解释(Factor Analysis) 资源学院 第十三讲 SPOOD 陈志军 zjchencs@gmail.com
主要内容 第一节 引言 第二节 主成分分析 第三节 因子分析 第四节 对应分析 YOUR SITE HERE
第一节 引言 YOUR SITE HERE
因 果 执果析因 由因索果 因子分析 回归分析 YOUR SITE HERE
方阵的特征值和特征向量 对于n阶方阵A A x = l x 特征向量 n维非零向量 特征值 实数 (也可以是复数) 矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量 可以用从一点指向另一点的箭头来表示 缩放因子 YOUR SITE HERE
一个变换的特征向量是这样一种向量,它经过这种特定的变换后保持方向不变,只是进行长度上的伸缩而已 。 特征方程|A-lI|=0 的解为特征值l; 满足 (A-liI)xi=0 的向量xi为li的特征量。 特征向量所指示的方向是更本质的东西,特征值只不过反映了特征向量在变换时的伸缩倍数。 YOUR SITE HERE
n阶方阵A有且恰有n个特征值; • AT与A有相同的特征值; • n阶方阵A=(aij)nxn的迹等于其特征值之和; • 实对称矩阵A的特征值都是实数; • 实对称矩阵A的不同特征值所对应的特征向量都正交。 因此,其特征值可以排序:l1≥ l2≥… ≥ lp 因此,存在正交矩阵P,使得P-1AP = ∧(以A的n个特征值为对角元素的对角阵) YOUR SITE HERE
地质成因是地质学研究的根本问题之一。 内在本质 ↑ 外在表象 理性认识 ↑ 感性认识 从定量角度对各地质变量进行成因分析,所建立的数学模型一般有 • 主成分分析(又称主分量分析) • 因子分析(R型、Q型) • 对应分析 YOUR SITE HERE
把所有指标和数字都原封不动地摆出去吗? 在如此多的地质变量之中,有很多是相关的。 人们希望能够找出它们的少数“代表”来对它们进行描述。 需要把这种有很多变量的数据进行高度概括。 一般情形下,每个变量都会提供一定的信息,但其重要程度与侧重有所不同,且这些变量所提供的信息在一定程度上有所重叠。 YOUR SITE HERE
相关→互不相关 利用相关性来对所涉及的变量加以“改造”和“组合”。 用为数较少的、互不相关(或基本不相关)的新变量来“代表”原来多个变量所提供的信息。 通过对新变量的分析达到合理分析和数据解释的目的。 YOUR SITE HERE
两类变量的不同特性 地质资料观测变量 因子 可观测的 (observed) 大量 相关 主次杂乱 混合、叠加 显性的 多样化的 潜在的、可导出的 (latent、 derived) 少量 不相关 取主舍次 识别、分离 隐性的 基因的 执果 析因 YOUR SITE HERE
发展简史 最早提出:J. Person(皮尔逊),主成分分析,1901、S. Spearman(斯卑尔曼),真因子分析,1904年,用于心理学研究;Benzeci(贝尔凯斯),对应分析,1970。 因子分析最早引入地质领域:W.C. Krumbren(克伦宾),1957年,研究沉积学。 应用发展的重要地质人物:J.Imbrie(英布里) 已成为地质学等领域中传播最快、应用最广的多元统计方法之一 。 YOUR SITE HERE
基本概念 主成分分析(Principal Component Analysis) 是一种常用的处理高维数据的多元统计分析方法。 是一种化繁为简,将指标尽可能压缩的降维(即空间压缩)技术。 把数目较多的变量作线性组合,组合成几个主要的新变量——主成分,少数几个主成分代表了原有变量变化的主要信息。 又称主分量分析。 作用:降维 YOUR SITE HERE
信息的大小如何度量? 从统计分析角度看,一个指标(看作随机变量)或一串数据所包含的信息,可以用差异的大小——方差来度量。 方差越大,所包含的信息量就越大; 方差越小,所包含的信息量就越小。 YOUR SITE HERE
x2 y2 y1 x1 YOUR SITE HERE
基本概念 因子分析(Factor Analysis) 是一种常用的处理高维数据的多元统计分析方法。 是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关关系的技术。 是通过对地质观测数据的分析来建立一个成因系统。它能把原来具有一定程度相关联系的地质变量转换为数量较少的由原始地质变量组合而成的新变量——因子,用它们来代替原始变量,各因子之间基本上是不相关的(基本独立)。 又称析因分析。 YOUR SITE HERE
因子分析分类 R型因子分析 研究变量之间的成因分类 相关性度量:变量间的方差-协方差、相关系数 R型因子分析是主成分分析的发展 Q型因子分析 研究样品之间的成因分类 相关性度量:夹角余弦和各种距离系数 YOUR SITE HERE
H H 形状 因子1 因子2 因子3 C G I B D J M E A N F L K = 2 +0 +0 C = 2 +1 +1 YOUR SITE HERE
沉积盆地与剥蚀区示意图 F2 F1 F3 xj = f(F1,F2,F3, ε) YOUR SITE HERE
C O Mg Ca Si CaCO3 SiO2 MgCO3 碳酸盐演示分类三角图解 YOUR SITE HERE
侵入岩分类R1-R2图解 (De la Roche等, 1980) R2 R1=[4Si-11(Na+K)-2(Fe+Ti)] R2 =(Al+2Mg+6Ca) R1 YOUR SITE HERE
因子分析典型应用问题 识别在同一时间点上不同空间过程的叠加过程;识别蚀源区的个数、岩石类型、分布 沉积盆地蚀源区的研究 沉积物粒度分析 沉积相研究 地层分析 古生物与古环境的研究 岩石化学成分的研究 变质岩原岩恢复 矿床成因研究 矿物的类质同象研究 地球化学 等 识别地层剖面上发生的气候、水体深度、物质来源,水动力学条件等沉积环境因素的细微变化。 识别岩浆岩的形成过程,诸如岩浆的异源叠加,或同源多期侵入,分异作用,交代作用,同化作用,交代识别作用,矿化活动等;岩浆岩的分类 识别在同一空间点上不同时间过程的叠加过程 识别矿化活动的阶段和类型 分析成矿控制因素 YOUR SITE HERE
作用: • 用最精炼的形式描述地质对象(压缩原始数据,降维技术) • 指示成因推理方向(探索潜在因素、进行成因分类、思考成因结论) • 分解叠加的地质过程(例如:得到矿物共生组合变量→划分不同成矿阶段→不同地质过程分解、时空分解) • 等 YOUR SITE HERE
基本概念 对应分析(Correspondence Analysis) 是在R型因子分析和Q型因子分析的基础上发展起来的,能够揭示变量与样品之间双重关系的一种多元统计方法。 又称R-Q型因子分析。 YOUR SITE HERE
第二节 主成分分析 YOUR SITE HERE
一、主成分分析的基本思想 构造关于原始变量的适当的线性组合,形成几个新变量(即所谓的主成分),它们是我们用来代替原始变量进行资料解释的综合性指标。 这一分析过程应使得 • 每个新变量都是各原始变量的线性组合 • 新变量的数目大大少于原始变量的数据 • 新变量保留了原始变量所包含的绝大部分信息 • 新变量之间互不相关,即各自含义的信息不重叠。 YOUR SITE HERE
二、主成分分析的数学提法 观测资料矩阵 x1 x2 xp Var. Case 1 2 n 确定应该构造多少个综合指标(主成分),并如何构造出各主成分的表达式(用x1,x2,…,xp表示) YOUR SITE HERE
主成分分析 y2 x2 y1 x1 方差越大,所包含的信息量就越大 YOUR SITE HERE
我们希望用y1来代替原来p个变量x1,x2,…,xp,这就要求在向量l1的正则化条件下,y1的方差尽可能大,由此确定的随机变量y1称为第一主成分。我们希望用y1来代替原来p个变量x1,x2,…,xp,这就要求在向量l1的正则化条件下,y1的方差尽可能大,由此确定的随机变量y1称为第一主成分。 如果第一主成分还不足以反映原来p个变量的信息,那么考虑第二主成分。为了有效反映原变量的信息,新变量y1和y2所包含的信息不应重叠,即要求y1和y2不相关。前述两个约束条件下求l2使Var(y2)达到最大,从而得到第二主成分。 YOUR SITE HERE
以此类推,我们最多可以找出p个yi出来。 然而我们最多只选择k个yi (i=1,2,…,k, k<p),并希望主成分数量较少,但解释能力却能达到约85%以上。 推导表明: 变量x1,x2,…,xp的主成分是以协方差矩阵S(或相关矩阵R)的特征向量为系数的线性组合,它们互不相关,方差为S(或R)的特征根。而S(或R)的特征根l1 ≥l2 ≥ … ≥lp ,所以有:Var(y1)≥Var(y2)≥…≥Var(yp)>0。 YOUR SITE HERE
对p个指标,经过适当线性组合,p个新变量为 这里 y1,y2,…,yp——分别称为第一主成分、第二主成分、第p主成分。 lij ——称为第 i 个主成分 yi在第 j 个原始变量 xj上的载荷(主成分载荷),是第i个特征向量的第j个分量。 YOUR SITE HERE
新变量(随机变量)yi的方差与协方差 其中, 样本协方差矩阵 样本相关矩阵 对标准化数据矩阵: YOUR SITE HERE
一般地,在约束条件 (向量l的正则化) ( yi和yk所包含的信息不应重叠,即yi和yk不相关) 之下求向量li ,使Var(yi)达到最大,由此向量li所确定的 称为x1,x2,…,xp的第i个主成分。 YOUR SITE HERE
三、主成分的性质 ① Y=L’X, L’L=I。 这里,L为X的协差阵的特征向量(单位化的)组成的正交阵。 ② y 的各分量之间是互不相关的。 ③ y 的 p 个分量是按方差大小、由大到小排列的。 ④y 的协差阵为对角阵。 YOUR SITE HERE
⑤ 系统总方差不变 ⑦ 第k个主成分的方差贡献率 (k<p) ⑧ 前k个主成分的累积方差贡献率(一般取80%, 85%) 标准化:消除量纲和数量级上的影响,sii=1 这里,a(yi,xj)表示第 i 个主成分 yi和第 j 个原始变量 xj之间的线性相关系数,称为因子载荷。矩阵A=(aij)称为因子载荷矩阵 ⑥ (i,j=1,2…,p) YOUR SITE HERE
四、主成分的计算步骤 ①对原始数据进行标准化变换 ②计算个变量间的相关系数,形成相关系数矩阵R。 ③求出R的特征值并按大小排列及相应于的单位特征向量。即可得主成分的表达式。 ④将特征值按大小降序排列,计算前k个特征值之和占特征值总和的百分数,一般按累积方差贡献率大于85%(或80%)的准则,来确定k,从而建立前k个主成分: YOUR SITE HERE
四、主成分的计算步骤 ⑤计算各个样品在k个主成分上的得分。第个样品的第个主成分得分为: 从而可得新指标(主成分)样本值(yij)nxk以代替原样本值(xij)nxp作统计分析。 ⑥对前k个主成分进行地质解释并对样品进行分类。 YOUR SITE HERE
四、应用实例 (A) Sn, (B) As, (C) Cu, (D) Pb, (E) Zn, (E) Cd. 三角符号表示锡矿床,粗黑线条表示断层 YOUR SITE HERE
第一主成分 YOUR SITE HERE
第三节 因子分析 YOUR SITE HERE
一、因子分析的基本思想 对于直接可观测的随机变量,根据其相关性大小,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公因子。 于是,原始观测的随机变量X可分解为不可观测(或未做观测)的两个随机向量的线性组合: 一是对整个X有影响的公共因素——公因子; 二是只对各对应分量有影响的特殊因素——特殊因子。 YOUR SITE HERE
F1 F2 YOUR SITE HERE
因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。因子分析就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。 因子分析的基本任务是: • 建立因子载荷矩阵 • 给出各公共因子的合理解释及命名 • 若有必要(当难以招到合理解释的公共因子)时,进一步作因子旋转。 YOUR SITE HERE
奥运会十项全能运动项目 得分数据的因子分析 百米跑成绩X1 跳远成绩X2 铅球成绩X3 跳高成绩X4 400米跑成绩X5 百米跨栏X6 铁饼成绩X7 撑杆跳远成绩X8 标枪成绩X9 1500米跑成绩X10
通过旋转,因子有了较为明确的含义: X1百米跑,X2跳远和X5 400米跑,需要爆发力的项目在F1有较大的载荷, F1可以称为短跑速度因子; X3铅球, X7铁饼和 X9 标枪在 F2上有较大的载荷,可以称为爆发性臂力因子; X6百米跨栏, X8撑杆跳远,X2跳远和X4跳高在F3上有较大的载荷,F3爆发腿力因子; F4长跑耐力因子
二、R型因子分析的数学提法 设对研究对象的n个样品测试了p个变量x1, x2, … , xp,可认为这p个变量共同起因于m因子(即因素)F1, F2, … , Fm. 假定这m个公因子(可理解为新的变量)对每个指标(变量)的影响或作用是线性的(我们总是讨论线性模型),那么,因子分析模型可以表示为:
称为因子模型。 矩阵形式 YOUR SITE HERE
假定条件 (1) x = (x1, x2, …, xp)'是可观测随机向量,均值向量E(x)=0,协方差阵 Cov(X)=∑,且协方差阵∑与相关矩阵R相等(因子分析通常要先对观测资料数据作标准化处理); (2) F= (F1, F2, …, Fm)’ (m<p)是不可测的向量,其均值向量E(F)=0,协方差矩阵 Cov(F) = I,即向量的各分量是相互独立的; (3) ε = (ε1, ε2,…, εp)’与F相互独立Cov(F,ε)=0,且E(ε)=0, e的协方差阵∑是对角阵,即各分量e之间是相互独立的。 YOUR SITE HERE