第七章典型相关与对应分析

第七章典型相关与对应分析 • 7.1 典型相关分析 • 7.2 对应分析

7.1 典型相关分析 • 7.1.1 典型相关分析的概念与步骤 • 7.1.2 用INSIGHT模块实现典型相关分析 • 7.1.3 用“分析家”实现典型相关分析 • 7.1.4 用CANCORR过程实现典型相关分析

7.1.1 典型相关分析的概念与步骤 • 1. 典型相关分析的基本思想 • 典型相关分析采用主成分的思想浓缩信息，根据变量间的相关关系，寻找少数几对综合变量(实际观测变量的线性组合)，用它们替代原始观测变量，从而将二组变量的关系集中到少数几对综合变量的关系上，通过对这些综合变量之间相关性的分析，回答两组原始变量间相关性的问题。除了要求所提取的综合变量所含的信息量尽可能大以外，提取时还要求第一对综合变量间的相关性最大，第二对次之，依次类推。

这些综合变量被称为典型变量，或典则变量，第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时，典型相关系数即为简单相关系数；当其中的一组只有一个变量时，典型相关系数即为复相关系数。这些综合变量被称为典型变量，或典则变量，第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时，典型相关系数即为简单相关系数；当其中的一组只有一个变量时，典型相关系数即为复相关系数。

2. 典型相关系数与典型相关变量 • 设X = (X1，X2，…，Xp)'，Y = (Y1，Y2，…，Yq)'是两个随机向量。利用主成分思想寻找第i对典型相关变量(Ui，Vi)： • Ui = ai1X1 + ai2X2 + … + aipXp = ai'X • Vi = bi1Y1 + bi2Y2 + … + biqYq = bi'Y • i = 1，2，…，m = min(p，q)；称ai'和bi'为（第i对）典型变量系数或典型权重。

记第一对典型相关变量间的典型相关系数为： • CanR1 = Corr(U1，V1)（使U1与V1间最大相关）； • 第二对典型相关变量间的典型相关系数为： • CanR2 = Corr(U2，V2)（与U1、V1无关；使U2与V2间最大相关）… • 第m对典型相关变量间的典型相关系数为： • CanRm = Corr(Um，Vm)（与U1，V1，…，Um–1，Vm–1无关；Um与Vm间最大相关）

3. 典型相关变量的性质 • 各对典型相关变量所包括的相关信息互不交叉，且满足： • 1) U1，U2，…，Um互不相关，V1，V2，…，Vm互不相关，即其相关系数为

2) 同一对典型相关变量Ui和Vi之间的相关系数为CanRi，不同对的典型相关变量之间互不相关，即： • 3) Ui和Vi的均值为0，方差为1（i = 1，…，m）。 • 4) 1 ≥ CanR1 ≥ CanR2 ≥ … ≥ CanRm ≥ 0

4. 典型相关系数的求解步骤 • 1) 求X，Y变量组的相关阵 • R = ； • 2) 求矩阵 • A = (R11)–1R12(R22)–1R21 • 和 • B = (R22)–1R21(R11)–1R12， • 可以证明A、B有相同的非零特征值； • 3) 求A或B的特征值λi与CanRi，A或B的特征值即为典型相关系数的平方：λi = (CanRi)2，i = 1，…，m。

4) 求A、B关于λi的特征向量。设ai为A关于λi的特征向量，bi为B关于λi的特征向量，则ai'和bi'为（第i对）典型变量系数。即第i对典型相关变量(Ui，Vi)： • Ui = ai'X* = ai1X1* + ai2X2* + … + aipXp* • Vi = bi'Y*= bi1Y1* + bi2Y2* + … + biqYq* • i = 1，2，…，m = min(p，q)；其中X*，Y*为原变量组的标准化。

5. 特征根 • 特征根(eigenvalue)是方差分析和多元检验的基础，特征根与典型相关系数之间的数量关系为： • 上式可以理解为第i对典型变量表示观测变量总方差作用的指标，它的值越大说明表示作用越大。

6. 典型相关系数的标准误 • 7. 典型相关系数的假设检验 • 典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求： • 1) 两个变量组均应服从多维正态分布： • (X，Y)～Np+q(μ，σ2) • 2) n > p + q

(1) 全部总体典型相关系数为0 • H0：CanRi = 0，i = 1，…，m • H1：至少有一个CanRi ≠ 0 • 检验的似然比统计量为 • 对于充分大的n，当H0成立时，统计量 • 近似服从自由度为pq的2分布。

(2) 部分总体典型相关系数为0 • 仅对较小的典型相关作检验： • H0：CanRi = 0，i = s，…，m，2 ≤ s ≤ m • H1：至少有一个CanRi ≠ 0 • 其检验的统计量为 • 对于充分大的n，当H0成立时，统计量 • 近似服从自由度为(p – k)(q– k)的2分布。

7.1.2 用INSIGHT模块实现典型相关分析 • 1. 实例 • 【例7-1】1985年中国28省市城市男生(19～22岁)的调查数据，见表7-1。其中6项形态指标：身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽，分别记为x1，x2，…，x6；5项机能指标：脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml)，分别记为y1，y2，…，y5。

表7-1 城市男生(19～22岁)形态与机能调查数据 • 设表中数据已经存放在数据集Mylib.xtyjn中，试分析形态指标和机能指标这两组变量间的相关性。

2. 分析设置 • 在INSIGHT模块中打开数据集Mylib.xtyjn。 • 1) 选择菜单“Analyze”“Multivariate(Y X)（多元分析）”，打开“Multivariate(Y X)”对话框； • 2) 将6项形态指标：x1至x6选为X变量，将5项机能指标：y1至y5选为Y变量，如图7-1左所示。

3) 单击“Output”按钮，在打开的对话框中选中“Canonical Correlation Analysis（典型相关分析）”复选框，单击下面的“Canonical Correlation Options（典型相关选项）”按钮，打开“Canonical Correlation Options”对话框, 并按下图右所示设置。 • 4) 三次单击“OK”按钮，得到分析结果。

3. 结果分析 • (1) 典型相关系数 • 第1典型相关系数为0.939573，校正值为0.908276，标准误差为0.026207，典型相关系数的平方为0.882797；第2典型相关系数为0.877842，校正值为0.842459，标准误差为0.051294，典型相关系数的平方为0.770606，如图所示。 • 前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大。

(2) 典型变量所解释的变异 • 第二部分是的5个特征根（Eigenvalues），包括：特征根、相邻两个特征根之差、特征根所占方差信息量的比例和累积方差信息量的比例。从中可以看出，前两对典型变量所能解释的变异占总变异（方差）的91.18%，如图7-4所示。其它三个典型相关变量的作用很小，一共只解释了总变异的9%，可以不予考虑。

(3) 典型相关系数的检验 • 用似然比法检验典型相关系数与零的差别是否显著，其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0，其p值依次为0.0010，0.0509和0.5089等等，如图7-5所示，说明前两对典型相关系数基本具有显著意义（在α > 0.0509的显著水平下）。因此，两组变量相关性的研究可转化为研究前两对典型相关变量的相关性。

(4) 典型相关结构 • 典型相关结构（下图）分别是各组原始变量与典型变量两两之间的相关系数矩阵。从相关系数判断，形态指标中除x5（0.0514）、x6（0.2433）外各变量与第一典型变量间的相关性都比较高，机能指标中除y2（0.0975）外各变量与第一典型变量间的相关性也都比较高。 • x5与第二典型变量间的相关性比较高，y2与第二典型变量间的相关性比较高。 • y1与前两个典型变量的相关系数为负值。

说明，第一对典型变量对肩宽x5和收缩压y2的解释作用不大。说明，第一对典型变量对肩宽x5和收缩压y2的解释作用不大。 • 另外，从形态指标组的变量和机能指标组的典型变量之间，以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见，各组变量与前两对典型变量之间均有较强的相关。

(5) 标准化变量的典型相关变量的系数 • 输出结果中还给出标准化变量的典型变量系数，如图所示。 • 来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量)： • CY1 = – 0.071672y1*– 0.789642y2* + 0.567178y3*+ 0.508332y4*+ 0.533496y5* • 容易看出，CY1主要代表了舒张压变音、舒张压消音、肺活量等指标。

来自形态指标的第一典型变量CX1为： • CX1 = 0.4287x1*– 0.09696x2*– 0.16210x3* + 0.93745x4* + 0.23498x5*– 0.18696x6* • 易知，CX1主要代表了胸围、身高和肩宽等指标。 • 关于第二典型变量有： • CY2 = – 0.026533y1* + 1.213436y2*– 0.535038y3*– 0.186048y4*+ 0.455870y5* • CX2 = 0.70270x1*– 0.39985x2* + 0.84359x3*– 0.99063x4*– 0.06829x5* + 0.48310x6* • 可见，CY2代表了收缩压和肺活量等指标；CX2代表了身高、体重、盆骨宽等指标。

(6) 典型冗余分析 • 典型冗余分析(canonical redundancy analysis)表明，两对典型变量仍不能全面预测配对的那组变量。来自形态指标的标准方差被对方两个典型变量（CY1、CY2）解释的累积方差比例为55.86%，来自机能指标的标准方差被对方两个典型变量（CX1、CX2）解释的累积方差比例为44.61%，如图所示。

7.1.3 用“分析家”实现典型相关分析 • 1. 实例 • 【例7-2】某康复俱乐部对20名中年人测量了3项生理指标：体重(weight)、腰围(waist)、脉搏(pulse)和3项运动指标：引体向上(chins)、起坐次数(situps)、跳跃次数(jumps)。其数据列于表7-2中。

表7-2 某康复俱乐部测量的生理指标和运动指标 • 设表中数据已经存放在数据集Mylib.slzb中，试分析生理指标和运动指标这两组变量间的相关性。

2. 分析设置 • 1) 在“分析家”中打开数据集Mylib.slzb； • 2) 选择菜单“Statistics（统计）”“Multivariate（多元分析）”“Canonical Correlation（典型相关分析）”，打开“Canonical Correlation”对话框； • 3) 在对话框中将生理指标选为Set1，运动指标选为Set2，如图所示。

4) 单击“Statistics（统计）”按钮，打开“Canonical Correlation：Statistics”对话框； • 选中“Canonical redundancy statistics”复选框，并选择3个典型变量，如图所示。两次单击“OK”按钮，得到计算结果。

3. 结果分析 • (1) 典型相关系数及显著性检验 • 第一部分的4列依次是：典型相关系数、校正的典型相关系数、近似的标准误以及典型相关系数的平方。从图7-10中可以看出，本例提取了3个典型相关系数，第一个典型相关系数CanR1 = 0.795608，其校正值为0.754056，标准误为0.084197，CanR12 = 0.632992，第一典型相关系数表示的是第一对典型相关变量之间的相关性。第二个典型相关系数为0.200556，第三个为0.072570。

第二部分是特征根以及相应的统计量，如图所示。第二部分是特征根以及相应的统计量，如图所示。 • 可以看出，第一对典型变量所能解释的变异已占总变异的97.34%，其它两个典型相关变量的作用很小，一共只解释了总变异的3%，可以不予考虑。 • 右边4列给出对典型相关系数的检验，结果表明，第一行的F值2.05，p值为0.0635，在0.07的检验水平下，应拒绝原假设，认为第一相关系数以及比它小的两个相关系数不为0；后两行检验的p值都远大于显著水平0.05，故可以认为只有第一个典型相关系数不为0。

第三部分输出的是用四种多元统计方法进行的所有典型相关系数均为0的F检验结果，如图所示。四种方法中一般参照Wilks' Lambda检验的结果。本例中的Wilks' Lambda检验结果与前述完全一致，表明至少有一个典型相关系数在α = 0.0635的显著水平下非0。

(2) 典型变量系数与典型结构 • 第四部分给出的是用原始变量表达的典型变量系数(典型权重)，如图所示。 • 因6个变量没有使用相同单位进行测量，因此考虑分析标准化后的系数。

第五部分给出的是用标准化变量（对原始变量标准化）表达的典型变量系数，如图所示。第五部分给出的是用标准化变量（对原始变量标准化）表达的典型变量系数，如图所示。 • V1 = – 0.7754 weight*+1.5793 waist*– 0.0591 pulse* • 它近似地是waist*和weight*的加权差，在waist*上权重更大些。V1在pulse*上系数近似为0。 • W1 = – 0.3495 chins*– 1.0540 situps* + 0.7164 jumps* • 它在situps*上的系数最大。这一对典型变量主要是反映waist*和situps*的负相关关系。

第六部分为典型结构，分别是各组原始变量与典型变量两两之间的相关系数矩阵，如图所示。可以看出：第六部分为典型结构，分别是各组原始变量与典型变量两两之间的相关系数矩阵，如图所示。可以看出： • 在原始变量与本组的典型变量的相关关系(典型载荷)中，生理指标的典型变量V1与腰围waist的相关系数最大(0.9254)，说明这个典型变量主要反映人的肥胖程度；运动指标的典型变量W1与起坐次数situps和引体向上次数chins有较大的负相关关系(-0.7276，-0.8177)，说明这个典型变量主要反映人不适合运动的程度。

在原始变量与配对组的典型变量的相关关系(典型交叉载荷)的分析结果中，腰围waist与运动指标的第1典型变量W1的相关性较强，这也说明了腰围大(体形较胖)则运动能力差；起坐次数和引体向上与生理指标的第1典型变量V1呈一定的负相关系数，说明人的体形肥胖程度对这两种运动能力有负面影响。在原始变量与配对组的典型变量的相关关系(典型交叉载荷)的分析结果中，腰围waist与运动指标的第1典型变量W1的相关性较强，这也说明了腰围大(体形较胖)则运动能力差；起坐次数和引体向上与生理指标的第1典型变量V1呈一定的负相关系数，说明人的体形肥胖程度对这两种运动能力有负面影响。

(3) 典型冗余分析 • 第七部分给出典型冗余分析的结果 • 上图是变量的原始方差通过它的典型变量和配对的典型变量所解释的方差比例。

下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例。下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例。 • 图中看出，生理指标通过它的第一个典型变量解释的共享方差的比例是45.08％，而被对方第一个典型变量W1解释的方差比例为28.54%，其比值28.54/45.08= 0.6330恰为CanR2。运动指标通过它的第一个典型变量解释的共享方差的比例是40.81％，而被对方个典型变量V1解释的方差比例为25.84%，其比值也是0.6330。

第八部分给出各原始变量和配对组的典型变量间的复相关系数（Multiple Correlations）的平方（图7-18），即原始变量与典型变量的判定系数，如weight与第1典型变量W1的相关系数为0.4938（见图7-15），则其复相关系数平方为0.49382 = 0.2438。

由复相关系数的平方可看出，生理指标的第一典型变量W1对chins(0.3351)和situps(0.4233)有一定解释能力，但对jumps(0.0167)几乎没有解释能力。而来自运动指标的第一典型变量V1对waist(0.5421)有相当好的解释能力，对weight(0.2438)较差，而对pulse(0.0701)几乎没有解释能力。其中，运动指标的第一典型变量对生理指标中的腰围指标解释能力最强，可以说明运动对体形影响较大，加强体育锻炼可以减肥。由复相关系数的平方可看出，生理指标的第一典型变量W1对chins(0.3351)和situps(0.4233)有一定解释能力，但对jumps(0.0167)几乎没有解释能力。而来自运动指标的第一典型变量V1对waist(0.5421)有相当好的解释能力，对weight(0.2438)较差，而对pulse(0.0701)几乎没有解释能力。其中，运动指标的第一典型变量对生理指标中的腰围指标解释能力最强，可以说明运动对体形影响较大，加强体育锻炼可以减肥。

7.1.4 用CANCORR过程实现典型相关分析 • 1. CANCORR过程 • CANCORR过程的常用语法格式如下： • PROC CANCORR <选项列表>； • WITH <变量列表>； • VAR <变量列表>； • RUN; • 其中PROC CANCORR语句、WITH语句是每个过程中必不可少的，其余语句可视情况使用。

下面分别介绍各语句的用法和功能。 • (1) PROC CANCORR语句：标示典型相关分析开始，可以规定输入输出数据集，指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表7-3。 • (2) VAR语句：列出要进行典型相关分析的第一组变量，变量必须是数值型的。如果VAR语句被忽略，所有未被其他语句提到的数值型变量都将被视为第一组变量。 • (3) WITH语句：列出要进行典型相关分析的第二组变量，变量必须是数值型的。该语句是每一个PROC CANCORR中必不可少的。

表7-3 常用选项及其功能

2. 使用CANCORR过程 • 【例7-3】家庭特征与家庭消费之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量： • x1：每年去餐馆就餐的频率，x2：每年外出看电影的频率； • y1：户主的年龄，y2：家庭的年收入，y3：户主受教育程度。 • 试分析两组变量之间的关系。假定变量的相关系数阵如表所示。

如下代码，利用变量的相关系数矩阵作典型相关分析：如下代码，利用变量的相关系数矩阵作典型相关分析： • DATA jt(TYPE=CORR); • INPUT NAME $ 1-2 (X1 X2 Y1-Y3) (6.); • CARDS; • X1 1.00 0.80 0.26 0.67 0.34 • X2 0.80 1.00 0.33 0.59 0.34 • Y1 0.26 0.33 1.00 0.37 0.21 • Y2 0.67 0.59 0.37 1.00 0.35 • Y3 0.34 0.34 0.21 0.35 1.00 • ; • PROC CANCORR EDF=70 REDUNDANCY; • VAR X1 X2; • WITH Y1-Y3; • RUN;

说明： • 1) 在数据集名jt后用TYPE = CORR表明数据的类型为相关矩阵，而不是原始数据。 • 2) INPUT语句中用“NAME $”读取左侧的变量名，“1-2”表示变量名的字符落在第1、2列上，“(X1 X2 Y1-Y4)”表示各列数据所对应的变量名，“(6.)”表示读取数据的宽度均为6列，其中相关系数占4位，其后的空格占2位；

3) 选择项EDF = n – 1，为典型相关分析提供一个计算误差自由度的参考值，因为该过程中没有合适的选择项可以将原始数据的样本含量n准确地送入。如果忽略这一选择项，将以缺省值n = 10000作为样本含量参与有关计算和统计检验，显然不妥； • 4) 选项REDUNDANCY表示输出典型冗余分析的结果。

3. 结果分析 • (1) 典型相关系数及显著性检验 • 第一部分的4列依次是：典型相关系数、校正的典型相关系数、近似的标准误以及典型决定系数（典型相关系数的平方）。从中可以看出，本例提取了2个典型相关系数，第一个典型相关系数CanR1 = 0.687948，其校正值为0.673671，标准误为0.062956，CanR12 = 0.473272；第二个典型相关系数为0.186865。

第二部分是特征根以及相应的统计量，从中可以看出，第一对典型变量所能解释的变异已占总变异的96.13%，另一对典型相关变量的作用很小，只解释了总变异的3.87%，可以不予考虑。第二部分是特征根以及相应的统计量，从中可以看出，第一对典型变量所能解释的变异已占总变异的96.13%，另一对典型相关变量的作用很小，只解释了总变异的3.87%，可以不予考虑。 • 右边4列给出对典型相关系数的检验，具体采用似然比法，所求的似然比统计量近似服从F分布。第一行检验的是第一相关系数以及比它小的两个相关系数是否为0，第一行的F值8.86，p值<0.0001。后一行检验的p值远大于置信水平0.05，故可以认为只有第一个典型相关系数有统计学意义。

第七章 典型相关与对应分析