570 likes | 734 Views
应用多元统计分析. 第十章 典型相关分 析. 第十章 典型相关分析 目 录. §10.1 总体典型相关 §10.2 样本典型相关 §10.3 典型冗余分析. 第十章 典型相关分析 . 相关分析是研究多个变量与多个变量之间的相关关系 . 如研究两个随机变量之间的相关关系可用简单相关系数表示 ; 研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示 . 1936 年 Hotelling 首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系 , 故而产生了典型相关分析 , 广义相关系数等一些有用的方法.
E N D
应用多元统计分析 第十章 典型相关分析
第十章 典型相关分析 目 录 §10.1 总体典型相关 §10.2 样本典型相关 §10.3 典型冗余分析
第十章 典型相关分析 相关分析是研究多个变量与多个变量之间的相关关系.如研究两个随机变量之间的相关关系可用简单相关系数表示;研究一个随机变量与多个随机变量之间的相关关系可用全相关系数表示. 1936年Hotelling首先将相关分析推广到研究多个随机变量与多个随机变量之间的相关关系,故而产生了典型相关分析,广义相关系数等一些有用的方法.
第十章 典型相关分析 什么是典型相关分析 在实际问题中,经常遇到要研究一部分变量和另一部分变量之间的相关关系,例如: 在工业中,考察原料的主要质量指标(X1,...,Xp ) 与产品的主要质量指标(Y1,...,Yq)间的相关性; 在经济学中,研究主要肉类的价格与销售量之间的相关性; 在地质学中,为研究岩石形成的成因关系,考察岩石的化学成份与其周围围岩化学成份的相关性; 在气象学中为分析预报24小时后天气的可靠程度,研究当天和前一天气象因子间的相关关系;
第十章 典型相关分析 什么是典型相关分析 在教育学中,研究学生在高考的各科成绩与高二年级各主科成绩间的相关关系; 在婚姻的研究中,考察小伙子对追求姑娘的主要指标与姑娘想往的小伙子的主要尺度之间的相关关系; 在医学中,研究患某种疾病病人的各种症状程度与用科学方法检查的一些结果之间的相关关系; 在体育学中,研究运动员的体力测试指标与运动能力指标之间的相关关系等.
第十章 典型相关分析 什么是典型相关分析 一般地,假设有一组变量X1,...,Xp 与另一组变量Y1,...,Yq (也可以记为Xp+1,...,Xp+q),我们要研究这两组变量的相关关系,如何给两组变量之间的相关性以数量的描述,这就是本章研究的典型相关分析. 当p=q=1时,就是研究两个变量X与Y之间的相关关系.简单相关系数是最常见的度量.其定义为
第十章 典型相关分析 什么是典型相关分析 当p≥ 1 ,q=1时(或 q≥ 1 , p =1) 设 则称 为Y与(X1,…,Xp)的 全相关系数. 其实Y对X的回归为 def = 且 ,并称R为全相关系数.
第十章 典型相关分析 什么是典型相关分析 当p,q>1时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新变量之间的相关. 也就是求=(1,…, p) 和=(1,…, q ) , 使得新变量: V= 1X1+…+pXp = X W= 1Y1+…+ qYq = Y 之间有最大可能的相关,基于这个思想就产生 了典型相关分析(Canonical correlatinal analysis).
第十章§10.1 总体典型相关 设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随机向量(不妨设p≤q),记随机向量 X Y Z= Z的协差阵为 其中 Σ11是X的协差阵,Σ22是Y的协差阵, Σ12 =Σ’21是X,Y的协差阵.
第十章§10.1 总体典型相关 我们用X和Y的线性组合V=aX和W=bY之间的相关来研究X和Y之间的相关.我们希望找到a和b,使ρ(V,W) 最大.由相关系数的定义: 又已知
第十章§10.1 总体典型相关 故有 对任给常数c1,c2,d1,d2,显然有 ρ(c1V+d1, c2W+d2)=ρ(V,W) 即使得相关系数最大的V=aX和W=bX并不唯 一. 故加附加约束条件 Var(V)=aΣ11a=1, Var(W)=bΣ22b=1. 问题化为在约束条件Var(V)= 1,Var(W)=1下, 求a和b,使得ρ(V,W)= aΣ12b达最大.
第十章§10.1 总体典型相关典型相关变量和典型相关系数的定义 定义10.1.1设X=(X1,...,Xp ) 及Y=(Y1,...,Yq) 为随机向量(不妨设p≤q),记Z =(X,Y).设随机向量 Z的均值为0,协差阵Σ>0. 如果存在a1=(a11,…,alp)和b1=(b11,...,blq)使得 则称 a1X, b1Y是X,Y的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数.
第十章§10.1 总体典型相关典型相关变量和典型相关系数的定义 如果存在ar=(ar1,…,arp)和br=(br1,...,brq)使得 (r = 2,…,m; m<=p): (1) arX, brY和前面r-1对典型变量都 不相关; (2) Var(arX )=1,Var(brY )=1; (3) Vr =arX, Wr =brY的相关系数最大. 则称 Vr ,Wr为X,Y的第r对典型相关变量,它们之间的相关称为第r个典型相关系数.
第十章§10.1总体典型相关典型相关变量和典型相关系数的一般求法第十章§10.1总体典型相关典型相关变量和典型相关系数的一般求法 典型相关变量和典型相关系数的一般求法 从第一对典型相关变量的解法中,我们知道求第一对典型相关变量和第一个典型相关系数的问题,就是求解TT′的最大特征根和相应的特征向量. 不仅如此,求解第r对典型相关变量和典型相关系数,类似地是求TT′的第r个(从大到小排序的)特征根和相应特征向量.
第十章§10.1总体典型相关典型相关变量和典型相关系数的一般求法第十章§10.1总体典型相关典型相关变量和典型相关系数的一般求法 定理10.1.1设Z =(X ,Y), 其中 X= (X1,...,Xp )为p维随机向量, Y= (Y1, ..., Yq) 为q维随机向量,(不妨设p≤q).已知E(Z)=0 ,D(Z)= Σ(Σ>0 ),记 定义
第十章§10.1总体典型相关典型相关变量和典型相关系数的一般求法第十章§10.1总体典型相关典型相关变量和典型相关系数的一般求法 并设p阶方阵TT 的特征值依次为 相应的单位特征向量记为lk (k=1,2,…,p) , 则 Vk = akX, Wk = bkY为X,Y的第k对典型相关变量, λk为第k个典型相关系数.
第十章§10.1总体典型相关典型相关变量的性质 性质(1) :设Vi和Wi为X和Y的第i对典型相关变量(i=1,...,p).令V=(V1 ,...,Vp )',W=(W1 ,…Wp)',则 其中 这表明X的典型变量V1 ,...,Vp都是不相关的, Y的典型变量W1,...,Wp也都是不相关的;同时说明Vi和Wj (i≠j)也是不相关的, 而Vi和Wi是相关的,且相关系数为λi .
第十章§10.1总体典型相关典型相关变量的性质 性质(2): 原始变量与典型变量的相关性 原始变量与典型变量之间的相关系数阵,也称为典型结构。 令 V=(V1 ,..., Vp )=AX (A=(a1,…,ap) ) , W=(W1 ,... Wp)=BY (B=(b1,…,bp) ),则 COV(X,V)=COV(X,AX)=Σ11A , COV(X,W)=COV(X,BY)=Σ12B , COV(Y,V)=COV(Y,AX)=Σ21A , COV(Y,W)=COV(Y,BY)=Σ22B .
第十章§10.1总体典型相关典型相关变量的性质 性质(3):设X和Y分别为p维和q维随机向量, 令X*= CX+d,Y* =GY+h; 其中C为pp非退化阵,d为p1向量,G为qq非退化阵,h为q1的向量,则: ① X*和Y* 的典型相关变量为(a*i)X* , (b*i)Y* ,其中a*i=C-1ai ,b*i=G-1bi (i=1,…,p) ai ,bi是X和Y的第i对典型相关变量的系数. ②线性变换不改变相关性.即 (i=1,…,p)
第十章§10.1总体典型相关例10.1.2 已知标准化随机向量X=(X1,X2)和Y= (Y1,Y2)的相关阵R为 其中 试求X,Y的典型相关变量和相关系数. 解:
第十章§10.1总体典型相关例10.1.2 与 因 具有相同的特征值. 且(1)2=42/(1+)(1+),2=0. M1对应于(1)2的单位特征向量为
第十章§10.1总体典型相关例10.1.2 设a=(c,c)’满足a’R11a=1, <==> 由上式求出c后,即得 类似可得 或由下式得到:
第十章§10.1总体典型相关例10.1.2 第一对典型相关变量为
第十章§10.1总体典型相关例10.1.2 第一个典型相关系数为 因||<1,||<1,显然的1> ,这表明第一典型相关系数一般大于原来变量之间的相关系数: (Xi,Yj) = (i,j=1,2).
第十章 §10.1 总体典型相关例10.1.3 设Y是一个随机变量,X=(X1,…,Xq)是q-维随机向量( q > 1),且已知 试计算Y与X这两组变量的第一对典型相关变量和第一个典型相关系数. 解:此例中第一组变量的个数p=1,第二组变量的个数q>1.这时1阶矩阵M1为
第十章 §10.1 总体典型相关例10.1.3 显然M1的特征值为R2,对应的特征向量l=1.故第一典型相关系数ρ1=R,且R就是Y与X的全相关系数. 设a满足: 由定理10.1.1,可知:
第十章 §10.1 总体典型相关例10.1.3 第一对典型相关变量为 其中: 显然有:
第十章§10.1总体典型相关作业 练习1:试证明总体典型变量的 性质(3). 习题十(P366-P368) 10-1,
第十章§10.2样本典型相关 设总体Z=(X1,...,Xp,Y1,…,Yq )’.在实际问题中,总体的均值E(Z)=和协差阵D(Z)=通常是未知的,因而无法求得总体的典型相关变量和典型相关系数. 首先需要根据观测到的样本资料阵对其进行估计. 已知总体Z的n个样品:
第十章§10.2样本典型相关 样本资料阵为 x11 x12 …x1py11 y12 … y1q x21 x22 …x2py21 y22 … y2q ……… …… ……….. xn1 xn2 …xnpyn1 yn2 … ynq Z’(1) Z’(2) = ... Z’(n) 若假定Z~N(,),则协差阵的最大似然估 计为 * def =
第十章§10.2样本典型相关 我们从协差阵的最大似然估计S*(或样本协差阵S)出发,按上节的方法可以导出样本典型相关变量和样本典型相关系数.还可以证明样本典型相关变量和样本典型相关系数是总体典型相关变量和样本典型相关系数的极大似然估计. 也可以从样本相关阵R出发来导出样本典型 相关变量和样本典型相关系数. 设样本相关阵R=(rij),其中rij =sij /(sii sjj)1/2 sij为样本协差阵S的元素.
第十章§10.2样本典型相关 把R和S剖分为: 令 , 如记X,Y为原始随机向量, X* ,Y*为标准化后的随机向量,则 X= D1 X*X* = D1-1 X Y= D2 Y * Y * = D2-1 Y 或
第十章§10.2样本典型相关 且 S11 = D1 R11 D1 S22 = D2 R22 D2 S12 = D1 R12 D2 S21 = D2 R21 D1 令 ~~ 求TT’的特征值依次记为 ~ 相应的单位正交特征向量为 lr (r=1,…,p),则
第十章§10.2样本典型相关 为X* ,Y*的第r对典型相关变量. 由性质3可得
第十章§10.2样本典型相关 故而 为X,Y的第r对典型相关变量.如果由S 阵计算,则
第十章§10.2样本典型相关 Vr,Wr(r=1,2,…,p)为X,Y的第r对样本典型相关变量,r为第r个样本典型相关系数. 当q≤p时,可从T’T矩阵(qq)出发,求特征值和单位特征向量,然后先求br ,再得到ar(r=1,…,q) .
第十章§10.3 典型冗余分析 由样本观测数据阵Z计算样本协差阵 S是总体协差阵Σ的最大似然估计. 由S阵求出样本典型变量后,进一步可以来计算原始变量与r对典型变量之间的相关系数阵(或称典型结构). 假定两组原始变量均为标准化变量.若记
第十章§10.3 典型冗余分析 R(X,V) R(Y,W)
第十章§10.3 典型冗余分析 分别计算两组原始标准化变量X,Y与典型变量V,W之间的相关系数阵[R(X;V),R(Y;W),R(X;W),R(Y;V)]中各列相关系数的平方和,还将得出下面一些有关的概念. 设rk(12)=r≤min(p,q).记 Rd(X;Vk)= ,并称为 Vk解释本组总变差p的百分比.
第十章§10.3 典型冗余分析 类似可以定义 Rd(Y;Wk),Rd(X;Wk),Rd(Y;Vk) 以及 Rd(X;V1 …Vm), Rd(X;W1 …Wm), Rd(Y;W1 …Wm),Rd(Y;V1 …Vm). 用来表示一个或几个典型变量 解释本组或另一组总变差的百分比.
第十章§10.3 典型冗余分析 典型冗余分析就是讨论典型变量解释另一组变量总变差百分比的问题. 在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量的信息,还解释了另一组变量的信息. 典型相关系数越大,典型成分解释对方变量组变差的信息也将越多.
第十章§10.3 典型冗余分析 Rd(X;Wk)(或Rd(Y;Vk))的值表示Wk(或Vk)解释另一组原始变量总变差的百分比. 以下公式给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比: Rd(X;Wk)= Rd(X;Vk) Rd(Y;Wk) Rd(Y;Vk)=
第十章§10.3 典型冗余分析 证明:由(10.2.1)关系式: 在标准化情况下, 因此 因此, Rd(Y;Vk)= Rd(Y;Wk)。
第十章§10.3 典型冗余分析 Rd(X;Wk)的大小表示第一组原始变量抽取的典型变量(Vk )解释的变差被第二组中典型变量(Wk )重复解释的百分比,简称为第一组典型变量的冗余测度; Rd(Y;Vk)表示第二组原始变量抽取的典型变量(Wk)解释的变差被第一组中典型变量(Vk)重复解释的百分比,简称为第二组典型变量的冗余测度.
第十章§10.3 典型冗余分析 冗余测度体现了两组变量间的相关程度. 冗余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小.它将为进一步讨论多对多建模提供一些有用信息.
第十章§10.3 典型冗余分析例10.3.1 例10.3.1(康复俱乐部20名成员测试数据的典型相关分析):康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高). 试分析生理指标和训练指标这二组变量间的相关性. 解 首先用DATA步把测试数据生成SAS数据集d1031,它有20个观测,6个变量.SAS程序如下: proccancorrdata=d1031 allvprefix=v wprefix=w vname='生理指标'wname='训练指标'; var weight waist pulse; with chins situps jumps; run;
第十章§10.3 典型冗余分析例10.3.1的输出结果 第一典型相关系数1 = 0.795608 第二典型相关系数2 = 0.200556
第十章§10.3 典型冗余分析例10.3.1的输出结果 V1= -0.7754 体重*+1.5793 腰围* –0.0591 脉搏* W1= -0.3495 引体向上*-1.0540 起坐次数* +0.7164 跳跃次数*
第十章§10.3 典型冗余分析例10.3.1的输出结果 R(X:V)= 计算X与V的相关系数阵R(X;V)中每一列元素的平方和,得 Rd(X;V1)={0.62062+0.92542+(-0.3328) 2 }/3=0.4508 Rd(X;V2)={(-0.7724)2+(-0.3777)2+0.04152 }/3=0.2470 Rd(X;V3)={(-0.1350)2+(-0.0310)2+0.9421 2 }/3=0.3022 第一组抽取的V1解释本组总变差p=3的百分比约为45%.