1 / 45

大数据存储与应用 降维

大数据存储与应用 降维. 课程主页: http ://netcomm.bjtu.edu.cn/? page_id=397 陈 一 帅 chenyishuai@gmail.com. 介绍. 为什么要降维? 找出规律,压缩数据量. 几维?. 降维. 看起来 3 维,其实 2 维. 看起来 2 维,其实 1 维. 内容. 特征值与特征向量 PCA (主元素分析) Principal-Component Analysis SVD (奇异值分解) Singular-Value Decomposition CUR 分解. 特征值与特征向量. 特征值与特征向量. 定义

arvid
Download Presentation

大数据存储与应用 降维

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 大数据存储与应用降维 课程主页:http://netcomm.bjtu.edu.cn/?page_id=397 陈一帅 chenyishuai@gmail.com

  2. 介绍 • 为什么要降维? • 找出规律,压缩数据量 几维?

  3. 降维 看起来3维,其实2维 看起来2维,其实1维

  4. 内容 • 特征值与特征向量 • PCA(主元素分析)Principal-Component Analysis • SVD(奇异值分解)Singular-Value Decomposition • CUR分解

  5. 特征值与特征向量

  6. 特征值与特征向量 • 定义 • 计算方法 • Power Iteration寻找特征对(Eigenpairs) • 特征向量矩阵

  7. 定义 • M 矩阵, λ常数,e非零列向量 • Me = λe • 唯一确定一个e • e为unit vector • 第一个非零元素为正

  8. 一般计算方法 • 要 , 的行列式等于0 • 求得λ • 然后通过Me = λe求e • 计算复杂度O(n3)

  9. Power Iteration方法 • 任选一个向量X0 • 递归 • 误差 Frobenius norm 足够小时,停止 • 这个Xk就是M的主特征向量 • 然后通过 Mx = λx 求 λ • x是一个单位向量:X-1 = XT

  10. Power Iteration方法 • 再找第二个特征对 • 在M中去掉第一个主特征向量的因素 • 然后类似计算

  11. 特征向量矩阵 • 特征向量是单位向量 • 特征向量之间正交 • 特征向量矩阵 E 的特点

  12. PCA

  13. PCA • 事例 • 使用特征向量进行降维 • 距离矩阵

  14. 原理 • 将矩阵与一个正交单位向量矩阵相乘,意味着在欧式空间上的旋转 • 求 的特征矩阵E,对高维数据进行旋转 • 原数据变成在新的坐标上的投影。 • 新的坐标上,第一维是主特征向量指向的那个方向,能量最强 • 以后依次递减 • 使降维成为可能

  15. 对称阵 逆时针45度旋转 原始数据 按虚线旋转

  16. 在新坐标系上的位置 • 第一维的能量 > 第二维的能量,而且它们正交 • 所以,如果要降到一维,无疑,应该保留第一维,把第二维去掉 • PCA

  17. SVD

  18. SVD • 定义 • 降维 • 应用 • 计算

  19. 定义 • r 是 A 的 Rank (秩) • U:左奇异向量 Left singular vectors 单位正交矩阵 • :奇异值 Singular values对角阵, • V:右奇异向量 Right singular vectors 单位正交矩阵

  20. • 二维 • M的秩 r = 2 科幻 浪漫 概念强度矩阵 科幻 浪漫 浪漫 科幻 电影– 概念 矩阵 用户 – 概念 矩阵

  21. SVD

  22. 用户电影观看矩阵 用户 – 概念 矩阵 科幻 浪漫 概念强度矩阵 科幻 浪漫 科幻 浪漫 在实际中,U,V中没有这么多0 概念分得没有这么清 电影– 概念 矩阵

  23. SVD的理解 • V是把电影按照用户进行概念分类后的结果 • 五部电影,投影到“科幻”“浪漫”两个概念上

  24. SVD的理解 • 是将用户按照电影进行概念分类后的结果 • 7个用户,投影到“科幻”“浪漫”两个概念上

  25. 基于SVD的降维 • 降概念强度最低那一维 用户 – 概念 矩阵 概念强度矩阵 电影– 概念 矩阵

  26. 降维结果 误差评估

  27. 降维

  28. 证明 • 为什么去掉 最小的那一维,误差最小? • 需要证明两点 • 如果M = PQR 是M的SVD,有 • qii是Q对角线上的值,也就是

  29. 实践中 • 保持80~90%的能量 • 计算复杂度 • 看哪个小 • LINPACK, Matlab, SPlus, Mathematica都有实现

  30. 和特征向量的关系 • 是 的特征值对角阵 • U是 的特征向量矩阵 • V是 的特征向量矩阵 • 就是PCA的那个旋转矩阵E 就可以用Power Iteration的方法解

  31. 应用 • 已知:赵老师喜欢Matrix,给它评分为5, • 问:赵老师喜欢什么类型的片? • qV计算,把赵老师投影到概念空间上

  32. 应用 • 给赵老师推荐什么片? • 把赵老师的概念向量qV,乘视频的概念向量VT,得到推荐的视频向量 = [1.64 1.64 1.64 -0.16 -0.16] • 给他推荐《异形》 

  33. 应用 • 寻找和赵老师兴趣相同的人 • 他们虽然看的是不同的片,但发现了他们的兴趣相同 • 通过UI矩阵发现的

  34. SVD的问题 • 结果难以解释 • 为什么这么多维? • U和V很Dense! • 占空间多

  35. CUR

  36. CUR • 正确地选择行/列 • 构造中间矩阵 • 消除冗余的行/列

  37. 缘起 • 克服SVD的问题 • M = CUR • 随机找c行,组成C • 选行j的概率P(j)= 其能量(值的平方和)/A的总能量 • 选出后,除它可能被挑上的次数的开方 • 好处:好理解,C稀疏

  38. 求U • W是C和R的交集 • 对它SVD: • Z+ 伪反 (pseudoinverse) • Z中的元素,如果是0,保持不变;如果非0,取倒数

  39. 性能 • [Drineas et al.] • 取 行, 列,就能在O(m*n)时间内,以概率获得 • Drineas et al., Fast Monte Carlo Algorithms for Matrices III: Computing a Compressed Approximate Matrix Decomposition, SIAM Journal on Computing, 2006.

  40. 冗余行/列的处理 • K列相同 • 扔掉K-1列,保留1列 • 对这一列中的所有值,乘

  41. 比较

  42. 实验 • DBLP作者数据 • 作者 – 会议 矩阵,论文数 • 428K 作者(行),3659会议(列) • 做降维 • CPU时间 • 准确度 • 存储空间:输出矩阵中数值个数/输入矩阵中数值个数

  43. 性能比较 • Sun, Faloutsos: Less is More: Compact Matrix Decomposition for Large Sparse Graphs, SDM ’07.

  44. 扩展 • SVD • 线性投影 • 非线性方法 isomap.stanford.edu/‎ • A Global Geometric Framework for Nonlinear Dimensionality Reduction. J. B. Tenenbaum, V. de Silva and J. C. Langford. Science 290 (5500): 2319-2323, • 给你698张人脸的图像(64×64灰度),通过isomap降维方法将每张脸当做一个点映到二维平面上,使得横坐标恰好反映人脸左右看的程度,纵坐标反映人脸上下看的程度。 • http://blog.csdn.net/littlestonelj/article/details/7534382

  45. 练习 • 11.3.2

More Related