第九章因子分析

第九章因子分析 事物的表现是多方面的，事物之间的相互作用也是交叉重叠和具有层次性的，所以我们期望对事物进行准确描述的时候总会陷入一种两难：一方面，对事物的各种表现的观测越全面，对事物的认识就越准确和越完整；另一方面，对事物的观测越全面，得到的描述变量就越多，对事物的特性的表述却变得更加困难了！显然，事物是普遍联系的，在高维度空间中描述事物比在低维度的空间中描述事物更客观，却更困难。这一矛盾如何解决呢？统计学提供了最有效的方法和手段，即因子分析：它首先在广泛的范围内搜集资料，得到尽可能全面的高维度数据资料，然后用因子分析进行降维处理，用较少的维度整合资料，获得对事物全面、准确而又便利的描述。

一、因子分析的基本概念和原理 通常，在科学研究中首先得到的观测资料都是关于事物的外在特征或个别的具体特征，这些特征的观测值存在聚合趋势，有倾向于聚合的一些变量具有高度相关性，这种高度的相关性显示出这些变量的背后存在着一个共同的制约因素，称为共同因子或因子。如果能够在一批多维数据资料中找到的 m个共同因子可以解释各个变量的大部分变异，就可以使用这较少的m个因子描述原来很多变量才能描述的事物的属性。所以, 将因子分析定义为：因子分析就是用少数几个因子来描述许多指标或因素之间的联系，以较少几个因子反映原资料的大部分信息的统计方法。

假如从p个变量的数据文件进行因子分析得到m个共同因子，那么 m 个共同因子的变化可以解释各个变量的大部分变异，换句话说，用这 m 个因子可以在相当程度上预测每一个变量的变化。于是得到下列回归方程组：该方程组表示了得到m 个公共因子后，就可以使用这些公共因子在一定程度上预测每一个观测变量。方程中的系数正好是相对应的观测变量与公共因子的相关系数，也叫做该观测变量在对应因子上的载荷，即因子载荷，它反映了二者的关系强度。

几个重要概念： 1. 因子载荷：某个因子与某个原变量的相关系数，主要反映该公共因子对相应原变量的贡献力大小。 2. 变量共同度：对某一个原变量来说，其在所有因子上的载荷的平方和就叫做该变量的共同度。它反映了所有公共因子对该原变量的方差（变异）的解释程度。如果因子分析结果中大部分变量的共同度都高于 0.8 ，说明提取的公共因子已经基本反映了原变量 80％以上的信息，因子分析效果较好。变量共同度是衡量因子分析效果的常用指标。 3. 公共因子的方差贡献:是某公共因子对所有原变量载荷的平方和, 它反映该公共因子对所有原始总变异的解释能力，等于因子载荷矩阵中某一列载荷的平方和。一个因子的方差贡献越大，说明该因子就越重要。

二、因子分析的基本步骤 1. 因子分析适合度检验确定原有若干变量是否适合于做因子分析的基本依据是原有变量的相关矩阵。如果相关矩阵中的相关系数大都小于 0.3 ，而且未达到显著性水平，则说明变量间的相关性普遍较低，它们存在潜在共同因子的可能性较小，就不再适合于做因子分析；如果相关系数都比较大，则可以进行因子分析。在相关基础上可计算三个用于判断因子分析适合度的指标：巴特利特球形检验（Bartlett Test of Sphericity）; 反像相关矩阵检验（Anti-image correlation matrix）; KMO(Kaiser-Meyer-Olkin)检验。

巴特利特球形检验（Bartlett Test of Sphericity） 该检验首先假设变量相关矩阵为单位阵（对角线为1、非对角线为0），然后检验实际相关矩阵与此差异性。如果差异性显著，则拒绝单位阵假设，即认为原变量间的相关性显著，适合于作因子分析，否则不能作因子分析。反像相关矩阵检验（ Anti-image correlation matrix ）反像相关矩阵检验以原变量的偏相关矩阵为基础。将偏相关矩阵中的每个元素（偏相关系数）取反(即取负) 得到反像相关矩阵。如果原变量间相互作用较大，则控制了这些相互作用后的偏相关系数较小，此时反像相关矩阵中的元素的绝对值比较小，则适合于做因子分析，反之则不适合于作因子分析。

KMO（ Kaiser-Meyer-Olkin ）检验 KMO检验是依据变量间的简单相关与偏相关的比较。其计算公式为所有原变量简单相关系数的平方和除以简单相关系数平方和加偏相关系数平方和。即：与反像相关检验的本质一样，如原变量间相互作用较大，变量间的偏相关系数就会相对较小，简单相关系数则相对较大。从上面的公式看出，KMO值就大，适合于因子分析，反之则KMO值较小而不适合于做因子分析。Kaiser提供的判断标准是： 0.9<KMO: 非常适合 0.8<KMO<0.9：适合 0.7<KMO<0.8：一般 0.6<KMO<0.7：适合度较低 KMO<0.6：适合度很低

2.构造因子 因子分析的一个重要环节是要确定提取的公共因子及其个数。方法是多种多样的，但最常用的是主成分分析法。主成分分析法是对原相关变量进行线性变换，使之转换为另外一组相对独立的变量，这一组变量被称为是主成分，它与原变量具有线性回归关系，即可由原变量的线性组合得到；反之亦然。转换得到的每一主成分可以代表或解释一部分原变量的变化，按照其解释变量的量从大到小排列。一般选择主成分数是使解释变异量累加到80％以上，但有时又需要结合公共因子的可解释性来确定提取的公共因子数。也可以用碎石图来直观反映主成分数与其解释原变量的累加效果以帮助确定提取公共因子数。

3.因子变量的命名解释 根据前述分析，因子分析得到的每个公共因子都对原变量中的每一变量作出一定解释，而解释程度的大小反映在因子载荷大小上。一般我们可以得到每一列的因子载荷中有一些是比较大的，而另一些比较小，就可以知道该列对应的因子主要解释了哪些变量，以此确定该公共因子的主要特征和内涵。但有时，因子载荷的大小差异不是非常明显，公共因子的命名和解释就比较困难。这时可以使用因子矩阵旋转对因子矩阵作变换，增加因子载荷的差异性，提高因子的可解释性。最常用的因子旋转是方差极大法，因为此种方法使因子载荷获得最佳分化。

4.计算因子得分 计算因子得分就是先要根据因子分析建立每个因子的回归方程，然后将具体个案的原变量分数代入就可以求出该个案的各因子分数。一般常用的方法有回归法、巴特利特方法和Anderson-Rubin法等。

三、因子分析的SPSS过程 第一步：准备数据文件，打开对话框，加载观测变量。数据文件主要是由较多的（一般在10个以上）可观测变量组成，个案数应比较大。然后点击“Analyze” ，选择 “Data Reduction” 中的“Factor”打开因子分析对话框，将参与分析的所有观测变量加载到“Variables”下边的方框中。。第二步：点击“Descriptives…”设置描述性统计要求。这里关键的是要求输出因子分析适合度的检验，一般要求输出：计算相关系数矩阵（选中Coefficients）、相关系数显著性水平矩阵（选中Significance levels）、反像相关矩阵检验 ( 选中Anti-image ) 、KMO 和巴特利特球形检验（选中 KMO and Bartlett’s test of sphericity）。

第三步: 点击“Extraction”打开对话框设置因子提取方式。在界定因子提取方法中需要设置以下几个方面的参数： (1) 因子构造方法：大多数情况下认为因子是变量的线性组合，所以使用最多的是主成分分析法（Principal components）; (2) 提取因子数（选中 Number of factors 后输入一个因子数），如果还无法确定可以不设定因子数，先以默认状态进行尝试性分析； (3) 在“Display”下选中“Unrotated factor solution”和 “Scree plot”以输出未经旋转的因子载荷矩阵、碎石图。执行之后根据输出信息确定提取因子数，比如根据碎石图来确定；

第四步：点击“Rotation”按钮打开选择因子载荷矩阵的旋转方法。一般使用最多的是正交旋转（选中Varimax）或斜交旋转方法（选中Promax）,其中斜交旋转速度快，所以大样本时多选此方法。同时可选中“Rotated solution”和 “Loading plot(s)”，以输出旋转后因子旋转矩阵、载荷散点图。第五步：点击“Scores”设置因子得分计算方法。一般最多的是选择回归方法，由此可以计算每个因子分数并记录到数据文件中。为此 , 可在对话框中选中“Save as variables”，然后在计算方法中选择 “Regression” 或其它方法。还要选中“ Display factor score coefficient matrix”。

第六步：点击“Options”设置因子载荷系数的显示格式:第六步：点击“Options”设置因子载荷系数的显示格式: (1) 选中“Sorted by size”，则因子载荷系数按照大小顺序排列，并构成矩阵，使得在同一因子上具有较高载荷的变量排在一起，便于得到结论； (2) 选中“Suppress absolute values less than:”并在其后的方格中输入一个0～1间的一个数，则因子载荷矩阵中就不再显示那些小于这个数值的载荷系数了，而只显示那些比此数值大的载荷值，从而使因子所解释的主要变量一目了然。四、因子分析的实例分析对20名大学生进行的有关价值观的测验，包括9个项目，测试结果如下页所示。要求根据这9项内容进行因子分析，得到维度较少的几个因子。

SPSS过程演示

练习题 1. 有研究者对江苏省中小学教师的心理健康状况进行了较大样本的调查研究，涉及到五百多调查对象。在这一调查中，包括有专门调查其心理健康水平的90个项目，请你对这90个项目进行因子分析，看主要包括的内容有哪些？点击打开数据文件

2.根据15名学生的8门课程成绩，对之进行因素分析2.根据15名学生的8门课程成绩，对之进行因素分析操作练习

第九章因子分析