第十章典型相关分析

第十章典型相关分析 • §10.1 引言 • §10.2 总体典型相关 • §10.3 样本典型相关 • §10.4 典型相关系数的显著性检验

§10.1 引言 • 典型相关分析（canonical correlation analysis）是研究两组变量之间相关关系的一种统计分析方法，它能够有效地揭示两组变量之间的相互线性依赖关系。 • 典型相关分析是由霍特林（Hotelling,1935,1936）首先提出的。

§10.2 总体典型相关 • 一、典型相关的定义及导出 • 二、典型相关变量的性质 • 三、从相关矩阵出发计算典型相关

一、典型相关的定义及导出 • 设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′是两组随机变量，且V(x)=Σ11(>0)，V(y)=Σ22(>0)，Cov(x, y)=Σ12，即有其中Σ21=Σ12′。 • 我们研究u=a′x与v=b′y之间的相关关系，其中 a=(a1,a2,⋯,ap)′，b=(b1,b2,⋯,bq)′ 现来计算一下u与v的相关系数。 Cov(u,v)=Cov(a′x,b′y)=a′Cov(x,y)b=a′Σ12b V(u)=V(a′x)=a′V(x)a=a′Σ11a V(v)=V(b′y)=b′V(y)b=b′Σ22b

所以，u与v的相关系数 由于对任意非零常数k1和k2，有 ρ(k1u,k2v)=ρ(u,v) 因此，为避免不必要的结果重复，我们常常限定u与v均为标准化的变量，即附加约束条件 V(u)=1，V(v)=1 即 a′Σ11a=1，b′Σ22b=1 在此约束条件下，求a∈Rp和b∈Rq，使得 ρ(u,v)=a′Σ12b 达到最大。

容易证明，有着相同的非零特征值，且皆为正，其个数为m=rank(Σ12)。将这些正特征值分别记为。设a1,a2,⋯,am为的相应于的特征向量，且满足标准化条件容易证明，有着相同的非零特征值，且皆为正，其个数为m=rank(Σ12)。将这些正特征值分别记为。设a1,a2,⋯,am为的相应于的特征向量，且满足标准化条件 ai′Σ11ai=1，i=1,2,⋯,m 令，则有从而b1,b2,⋯,bm为的相应于的特征向量，并且满足

可以证明，当取a=a1,b=b1时，ρ(u,v)=a′Σ12b达到最大值ρ1(显然ρ1≤1)。我们称可以证明，当取a=a1,b=b1时，ρ(u,v)=a′Σ12b达到最大值ρ1(显然ρ1≤1)。我们称 u1=a1′x，v1=b1′y 为第一对典型相关变量，称ρ1为第一个典型相关系数 • 第一对典型相关变量u1,v1提取了原始变量x与y之间相关的主要部分，如果这一部分还显得不够，可以在剩余相关中再求出第二对典型相关变量u2=a′x,v2=b′y，也就是a,b应满足标准化条件且应使得第二对典型相关变量不包括第一对典型相关

变量所含的信息，即 ρ(u2,u1)=ρ(a′x,a1′x)=Cov(a′x,a1′x)=a′Σ11a1=0 ρ(v2,v1)=ρ(b′y,b1′y)=Cov(b′y,b1′y)=b′Σ22b1=0 在这些约束条件下使得 ρ(u2,v2)=ρ(a′x,b′y)=a′Σ12b 达到最大。 • 一般地，第i(1<i≤m)对典型相关变量ui=a′x,vi=b′y是指，找出a∈Rp,b∈Rq,在约束条件 a′Σ11a=1，b′Σ22b=1 a′Σ11ak=0，b′Σ22bk=0，k=1,2,⋯,i−1 下，使得 ρ(ui,vi)=ρ(a′x,b′y)=a′Σ12b 达到最大。当取a=ai,b=bi时，ρ(ui,vi)达到最大值ρi，称它为第i个典型相关系数，称ai,bi为第i对典型系数。

二、典型相关变量的性质 • 1.同一组的典型变量互不相关 • 2.不同组的典型变量之间的相关性 • 3.原始变量与典型变量之间的相关系数 • 4.简单相关、复相关和典型相关之间的关系

1.同一组的典型变量互不相关 • 设x,y的第i对典型变量为 ui=ai′x，vi=bi′y，i=1,2,⋯,m 则有 V(ui)=ai′Σ11ai=1，V(vi)=bi′Σ22bi=1，i=1,2,⋯,m ρ(ui,uj)=Cov(ui,uj)=ai′Σ11aj=0，1≤i≠j≤m ρ(vi,vj)=Cov(vi,vj)=bi′Σ22bj=0，1≤i≠j≤m

2.不同组的典型变量之间的相关性 • ρ(ui,vi)=ρi，i=1,2,⋯,m • 记u=(u1,u2,⋯,um)′，v=(v1,v2,⋯,vm)′，则上述两个性质可用矩阵表示为 V(u)=Im，V(v)=Im，Cov(u,v)=Λ 或其中Λ=diag(ρ1,ρ2,⋯,ρm)。

3.原始变量与典型变量之间的相关系数 • 记 A=(a1,a2,⋯,am)=(aij)p×m B=(b1,b2,⋯,bm)=(bij)q×m

则 Cov(x,u)=Cov(x,A′x)=Σ11A Cov(x,v)=Cov(x,B′y)=Σ12B Cov(y,u)=Cov(y,A′x)=Σ21A Cov(y,v)=Cov(y,B′y)=Σ22B 上述四个等式也可表达为

i=1,2,⋯,q，j=1,2,⋯,m 所以

4.简单相关、复相关和典型相关之间的关系 • 当p=q=1时，x与y之间的（惟一）典型相关就是它们之间的简单相关；当p=1或q=1时，x与y之间的（惟一）典型相关就是它们之间的复相关。可见，复相关是典型相关的一个特例，而简单相关是复相关的一个特例。 • 第一个典型相关系数至少同x（或y）的任一分量与y（或x）的复相关系数一样大，即使所有这些复相关系数都较小，第一个典型相关系数仍可能很大；同样，从复相关的定义也可以看出，当p=1（或q=1）时，x（或y）与y（或x）之间的复相关系数也不会小于 x（或y）与y（或x）的任一分量之间的相关系数，即使所有这些相关系数都较小，复相关系数仍可能很大。

三、从相关矩阵出发计算典型相关 • 有时，x和y的各分量的单位不全相同，我们希望在对各分量作标准化变换之后再作典型相关分析。 • 记μ1=E(x)，μ2=E(y)，，，为的相关矩阵。对x和y的各分量作标准化变换，即令现在来求x*和y*的典型相关变量，i=1,2,⋯,m。

于是因为所以

式中，有。同理 式中，有。由此可见，为x*和y*的第i对典型系数，其第i个典型相关系数仍为ρi，在标准化变换下具有不变性，这一点与主成分分析有所不同。 • x*和y*的第i对典型变量具有零均值，且与x和y的第i对典型变量ui=ai′x，vi=bi′y只相差一个常数。 • 例10.2.1 设x,y有如下相关矩阵：这里｜α｜＜1,｜γ｜＜1，可以保证存在。

由于11′有惟一的非零特征值1′1=2，故有惟一非零特征值由于11′有惟一的非零特征值1′1=2，故有惟一非零特征值 • 在约束条件下，相应于特征值的特征向量为。同理，在约束条件下，

相应于特征值的特征向量为。所以，第一对典型相关变量为相应于特征值的特征向量为。所以，第一对典型相关变量为其中x*和y*分别是对x和y各分量标准化后的向量。第一个典型相关系数为。由于｜α｜＜1，｜γ｜＜1，故ρ1>｜β｜，表明第一个典型相关系数大于两组原始变量之间的相关系数。

§10.3 样本典型相关 • 设数据矩阵为则样本协方差矩阵为 S可用来作为Σ的估计。当n>p+q时，可分别作为的估计；它们的非零特征值可用来估计；

相应的特征向量作为a1,a2,⋯,am的估计， 作为b1,b2,⋯,bm的估计。的正平方根rj称为第j个样本典型相关系数，称为第j对样本典型相关变量，j=1,2,⋯,m。将样本(xi,yi)，i=1,2,⋯,n经中心化后代入m对典型变量，即令则称uij为第i个样品xi的第j个样本典型变量得分，称vij为第i个样品yi的第j个样本典型变量得分。由约束条件可得 • 同理可得 • 对每个j，可画出(uij,vij)，i=1,2,⋯,n的散点图，该图也可用来检查是否有异常值出现。

例10.3.1 某康复俱乐部对20名中年人测量了三个生理指标：体重(x1)、腰围(x2)、脉搏(x3)和三个训练指标：引体向上(y1)、起坐次数(y2)、跳跃次数(y3)。其数据列于表10.3.1。表10.3.1 某康复俱乐部的生理指标和训练指标数据

的特征值分别为0.6630、0.0402和0.0053，于是 r1=0.797，r2=0.201，r3=0.073 相应的样本典型变量系数为

因此，第一对样本典型变量为 • 如果需要，第二对样本典型变量为

例10.3.2 在研究组织结构对“职业满意度”的影响时，作为其中一部分，邓讷姆(Dunham)调查了职业满意度与职业特性相关的程度。对从一大型零售公司各分公司挑出的n=784个行政人员，测量了p=5个职业特性变量：用户反馈(x1)、任务重要性(x2)、任务多样性(x3)、任务特性(x4)及自主权(x5)和q=7个职业满意度量：主管满意度(y1)、事业前景满意度(y2)、财政满意度(y3)、工作强度满意度(y4)、公司地位满意度(y5)、工种满意度(y6)及总体满意度(y7)。对784个被测者的样本相关矩阵为

样本典型相关系数和样本典型变量系数列于表10.3.2中。样本典型相关系数和样本典型变量系数列于表10.3.2中。

表10.3.2 典型相关系数和典型变量系数

第一对样本典型变量为 • 根据典型系数，主要代表了用户反馈和自主权这两个变量，三个任务变量显得并不重要；而主要代表了主管满意度和工种满意度变量，其次代表了事业前景满意度和公司地位满意度变量。我们也可从相关系数的角度来解释典型变量，原始变量与第一对典型变量间的样本相关系数列于表10.3.3中。

表10.3.3 原始变量与典型变量的样本相关系数 • 所有五个职业特性变量与第一典型变量u1*有大致相同的相关系数，故u1*可以解释为职业特性变量，这与基于典型系数的解释不同。v1*主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度，v1*可以解释为职业满意度—公司地位变量，这与基于典型系数的解释基本相一致。第一对典型变量u1*与v1*的样本相关系数r1=0.55，可见，职业特性与职业满意度之间有一定程度的相关性。

§10.4 典型相关系数的显著性检验 • 一、全部总体典型相关系数均为零的检验 • 二、部分总体典型相关系数为零的检验

一、全部总体典型相关系数均为零的检验 • 设(x′,y′)′～Np+q(μ,Σ),Σ>0。又设S为样本协方差矩阵，且n>p+q。 • 考虑假设检验问题： H0：ρ1=ρ2=⋯=ρm=0 H1：ρ1,ρ2,⋯,ρm至少有一个不为零其中m=min{p,q}。若检验接受H0，则认为讨论两组变量之间的相关性没有意义；若检验拒绝H0，则认为第一对典型变量是显著的。(10.4.1)式实际上等价于假设检验问题 H0：Σ12=0，H1：Σ12≠0 H0成立表明x与y互不相关。

检验统计量为 对于充分大的n，当H0成立时，统计量在给定的α下，若，则拒绝H0，认为典型变量u1与v1之间的相关性是显著的；否则，就认为第一个典型相关系数不显著。

例10.4.1 在例10.3.1中，假设为多元正态数据，欲检验： H0：ρ1=ρ2=ρ3=0，H1：ρ1≠0 它的似然比统计量为查χ2分布表得，，因此在α=0.10的显著性水平下，拒绝原假设H0，也即认为至少有一个典型相关是显著的。

二、部分总体典型相关系数为零的检验 • 若H0：ρ1=ρ2=⋯=ρm=0经检验被拒绝，则应进一步检验假设 H0：ρ2=⋯=ρm=0 H1：ρ2,⋯,ρm至少有一个不为零若原假设H0被接受，则认为只有第一对典型变量是有用的；若原假设H0被拒绝，则认为第二对典型变量也是有用的。 • 如此进行下去，直至对某个k，假设H0：ρk+1=⋯=ρm=0被接受，这时可认为只有前k对典型变量是显著的。 • 对于假设检验问题 H0：ρk+1=⋯=ρm=0 H1：ρk+1,⋯,ρm至少有一个不为零

其检验统计量为 对于充分大的n，当H0为真时，统计量近似服从自由度为(p−k)(q−k)的χ2分布。给定显著性水平α，若，则拒绝原假设H0，认为第k+1个典型相关系数ρk+1是显著的，即第k+1对典型变量显著相关。 • 以上的一系列检验实际上是一个序贯检验，检验直到对某个k值H0未被拒绝为止。事实上，检验的总显著性水平已不是α了，且难以确定。还有，检验的结果易受样本容量大小的影响。因此，检验的结果只宜作为确定典型变量个数的重要参考依据，而不宜作为惟一的依据。通常选择尽可能小的k。

例10.4.2 在例10.3.1中，欲进一步检验： H0：ρ2=ρ3=0，H1：ρ2≠0 检验统计量为故接受原假设H0，即认为第二个典型相关是不显著的。因此，只有一个典型相关是显著的。

第十章 典型相关分析