1 / 55

第七章 主成分分析

第七章 主成分分析. 第一节 引言. 主成分分析(或称主分量分析)是一种通 过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。. 主成分分析的一般目的是: (1) 变量的降维; (2) 主成分的解释。. 为便于对主成分分析的理解,我们考虑(间隔) 变量个数 的情形,假设共有 n 个样品, 每个样品都测量了两个变量( ),它们 大致分布在一个椭圆内,如图 7.1.1 所示。显然 在坐标系 中, n 个点的坐标 和 呈现

Download Presentation

第七章 主成分分析

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 第七章 主成分分析 第一节 引言 主成分分析(或称主分量分析)是一种通 过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。 主成分分析的一般目的是: (1)变量的降维; (2)主成分的解释。

  2. 为便于对主成分分析的理解,我们考虑(间隔)为便于对主成分分析的理解,我们考虑(间隔) 变量个数 的情形,假设共有n个样品, 每个样品都测量了两个变量( ),它们 大致分布在一个椭圆内,如图7.1.1所示。显然 在坐标系 中,n 个点的坐标 和 呈现 某种线性相关性。我们将该坐标系按逆时针方 向旋转某个角度 变成新坐标系 。

  3. 是椭圆的长轴方向, 是短轴方向。 旋转公式为 . 图 7.1.1

  4. 设 为一个 维随机向量, 并假设二阶矩存在,记 。 考虑如下的线性变换 第二节 总体的主成分 一、主成分的定义及导出

  5. 将 限制为单位向量,即 , 希望在此约束条件下寻求向量 ,使得 达到最大, 就称为第一主 成分。 由于对任意的常数k ,有 如果不对 加以限制,就不能保证 是 的一切线性函数中方差最大的。

  6. 设 (因为 非负定) 为 的特征值, 为相应的单位特 征向量,且相互交叉。则由(1.6.1)式知, 其中 为正交矩阵。

  7. 当取 时,有 所以, 就是所求的第一主成分,它的方差具有最大值 。 由于

  8. 如果第一主成分所含信息不够多,还不足以 代表原始的 个变量,则需考虑使用 ,在 约束条件 和 下寻求向 量 ,使得 达到最大,所求 得 称为第二主成分。 类似的,我们可以再定义第三个主成分, ,第 个主成分。

  9. 一般来说, 的第 个主成分 是指: 在约束条件 和 下寻求 ,使得 达到最大。 现在来求第二主成分,有(7.2.5)式知 于是

  10. 若取 ,则有 所以, 就是所求的第二主成分,具有方差 。 从而

  11. 由于 故 二、主成分的性质 1、主成分的均值和协方差矩阵 记

  12. 由于 所以 或 由此可以看出,主成分分析把 个原始变量 的总方差 分解成了 个不 相关变量 的方差之和 。 2、主成分的总方差

  13. 总方差属于第 个主成分 (或被 所解释)的比例为 称为主成分 的贡献率。第一主成分 的贡 献率最大,表明它解释原始变量 的能力最强,而 的解释能力依 次递减。

  14. 前 个主成分的贡献率之和 称为主成分 的累积贡献率,它 表明 解释 的能力。 通常取(相对于 )较小的 ,使得累计 贡献达到一个较高的百分比(80%~90%)。

  15. 3、原始变量 与主成分 之间的相关系数 由(7.2.7)式知 即 所以

  16. 4、 个主成分对原始变量的贡献率 与 的复相关系数的平方、 称为 个主成分 对原始变量 的贡献率,记为 。 由(3.3.15)式知

  17. 由 式知, 对 的贡 献率 ,所以

  18. 例 7.2.1 设 的协方差矩阵为 其特征值为 相应的特征向量为

  19. 若只取一个主成分,则贡献率为 进一步计算主成分对每一个原始变量的贡献率,并列于表7.2.1中。 表7.2.1

  20. 可见, 对第三个变量的贡献率为零,这 是因为 与 和 都不相关,在 中未包 含一点有关 的信息,这时仅取一个主成分 就显得不够了,故应再取 ,此时累积贡献 率为: 对每一个变量 贡献率分别为 , 都比较高。

  21. (7.2.7)式也可以表达为 称 为第 主成分 在第 个原始变量 上的载荷,它度量了 对 的重要程度。 在解释主成分时,我们需要考察载荷,同时 也应考察一下相关系数。由(7.2.14)式知, 相关系数 是与载荷 成正比的。 5 、 原始变量对主成分的影响

  22. 由于 ,故 实际上是 的 加权平均,大的 倾向于 中前几个有较小的绝对值;相反, 小的 倾向于 中前几个有较 小的绝对值,而后几个有较大的绝对值。 由(7.2.16)式知

  23. 因此,从 式可见,方差大的那些变 量与具有大特征值的主成分有较密切的联系, 而方差小的另一些变量与具有小特征值的主 成分有较强的联系。通常我们取前几个主成 分,因此所取主成分会过于照顾方差大的变 量,而对方差小的变量却照顾的不够。

  24. 因此,当 在总方差 中占有 大的比例时,第一主成分 将有(更加)大 的贡献率。 从(7.2.17)式容易看出

  25. 例 7.2.2 设 的协方差矩阵为 经计算, 的特征值及特征向量为

  26. 可见,方差大的原始变量 在很大程度上控制 了第一主成分 ,方差小的原始变量 几乎完 全控制了第三主成分 ,方差介于中间的 则基本控制了第二主成分 。 相应的主成分分别为

  27. 的贡献率为 这么高的贡献率首先归因于 的方差比 和 的方差大得多,其次是 相互 之间存在着一定的相关性。 的特征值相对 较小,表明 之间有这样一个线性依 赖关系: 其中 为一常数

  28. 显然 , 的协方差矩阵 就是 的相关矩阵 。 三、从相关矩阵出发求主成分 为使主成分分析能够均等的对待每一个原始变量,(单位不全相同时)消除由于单位的不同而可能带来的一些不合理的影响,常常将各原始变量作标准化处理,即令

  29. 设 为 的 个特征 值, 为相应的单位特征向量,且 相互正交,则 个主成分为 记 于是

  30. 即有 上述主成分具有的性质可概括如下:

  31. 因此,在解释主成分 时,由相关矩阵 求得的载荷 和相关系数 所起的作用 是完全相同的。

  32. 例 7.2.3 在例7.2.2中, 的相关矩阵 的特征值及特征向量为

  33. 的贡献率为 和 累积贡献率为 相应的主成分分别为

  34. 设数据矩阵为 第三节 样本的主成分

  35. 其中 为样本均值。可以用 代替 。用 代替 ,然后从 或 出发按类 似于上一节的方法求得样本主成分。 则样本协方差矩阵和样本相关矩阵分别为

  36. 一、从 出发求主成分 设 为 的特征值, 为相应的单位特征向量,且彼此 正交。则第 样本主成分为 ,它具 有样本方差 ,各主成分之间 的样本协方差为零。

  37. 与 的样本相关系数 其中 此外,样本总方差

  38. 在实际应用中,常常让 减去 ,使样本数据中心化。这不影响样本协方差矩阵 ,在前面的论述中唯一需要变化的是,将第 主成分改写成中心化的形式,即 若将各观察值 代替上式中的观察值向量 ,则第 主成分的值 称之为观察值 的第 主成分得分。

  39. 所有观察值的平均主成分得分

  40. 二、从 出发求主成分 设样本相关矩阵 的 个特征值为 为相应 的正交单位特征向量,则第 个样本主成分 其中 是各分量经(样本)标准化了的向量, 即

  41. 这是 的各分向量数据经标准化后的数据向 量,将其代替(7.3.6)式中的 ,即得观察 值 在第 主成分上的得分 所有观察值的平均主成分得分

  42. 例7.3.1 在制定服装标准的过程中,对128 名成年男子的身高进行了测量,每人测得的 指标中含有这样六项:身高 、坐高 、 胸围 、手臂长 、肋围 和腰 围 。所得样本相关矩阵列于表7.3.1 。

  43. 经计算,相关矩阵 的前三个特征值、相应的特征向量以及贡献率列于表7.3.2 表7.3.1 男子身材六项指标的样本相关矩阵

  44. 表7.3.2 的前三个特征值、特征向量以及贡献率

  45. 前三个主成分分别为

  46. 由于 非常小,所以存在这样一个共线性关系: 为了研究六个原始变量间是否存在共线性,我 们需要看一下最后一个主成分,计算结果为

  47. 例 7.3.2 对例6.3.3中的数据从相关矩阵出发进 行主成分分析。经计算, 的样本 相关矩阵 列于表7.3.3。 的前三个特征值、 特征向量以及贡献率列于表7.3.4。

  48. 表7.3.3 消费性支出八个变量的样本相关矩阵

  49. 表7.3.4 的前三个特征值、特征向量以及贡献率

  50. 表7.3.5 按第一主成分排序的31个地区

More Related