450 likes | 792 Views
Semi-supervised Learning by Sparse Representation. Shuicheng Yan Huan Wang Lecturer: Yitao Zhai. 作者的相关信息. Shuicheng Yan— 第一作者 新加坡国立大学助理教授 简历 1999 和 2004 年分别从北京大学获得应用数学的学士和博士学位 分别在微软亚洲研究院, UIUC ,香港中文大学做过研究工作 研究方向 图像与视频中的行为检测 子空间学习与流形学习 物体识别与分类 生物识别 医学图像分析 论文 期刊 : 36, 会议 : 69.
E N D
Semi-supervised Learning by Sparse Representation Shuicheng Yan Huan Wang Lecturer: Yitao Zhai
作者的相关信息 • Shuicheng Yan—第一作者 • 新加坡国立大学助理教授 • 简历 • 1999和2004年分别从北京大学获得应用数学的学士和博士学位 • 分别在微软亚洲研究院,UIUC,香港中文大学做过研究工作 • 研究方向 • 图像与视频中的行为检测 • 子空间学习与流形学习 • 物体识别与分类 • 生物识别 • 医学图像分析 • 论文 • 期刊: 36, 会议: 69. • 个人主页: http://www.ece.nus.edu.sg/stfpage/eleyans/ 2014/4/1
作者的相关信息 • Huan Wang——第二作者 • 00-04 浙江大学 信息与电子工程学院 • 04-07 香港中文大学 信息工程学院 • 目前在耶鲁大学计算机学院 • 研究方向 • 计算机视觉,机器学习,信源编码,嵌入式系统等 • 发表论文 • 第一作者论文5篇 :CVPR 08; IJCAI 07(oral); CVR07; ICML07( oral); ACM MM06 • 主页 • http://mmlab.ie.cuhk.edu.hk/~huan/Welcome.html • http://joyousprince.spaces.live.com/
文章出处 • S. Yan and H. Wang. Semi-supervised learning by sparse representation. SIAM International Conference on Data Mining(SDM09). • 相关文献 • J. Wright, A. Ganesh, A. Yang, and Y. Ma: Robust face recognition via sparse representation. TPAMI, in press, 2008. • X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. ICML, 2003. • D. Cai, X. He, and J. Han. Semi-supervised discriminant analysis. ICCV, 2007.
SIAM 简介 • 工业和应用数学学会 (Society for Industry and Applied Mathematics ,SIAM) 于二十世纪五十年代前期在美国成立,是一个以促进应用和计算数学的研究、发展、应用为目的的协会 • SIAM以出版的高水准和颇具声誉的期刊而自豪。SIAM中共包括13种期刊,这13种同行评审的研究期刊在应用和计算数学的高等研究领域非常著名,它们涵盖了整个应用和计算数学领域,内容丰富而全面。根据ISI公司2005年出版的期刊引用报告JCR,几乎所有SIAM的期刊的影响因子都接近或超过1。 • SIAM Review获得“数学”领域前所未有的高影响因子6.118 • 在"应用数学"领域的162种期刊中,SIAM的期刊占据了前25位中的7席 • 主页: http://www.siam.org/
摘要 • 本文中,我们提出了一种基于L1 Graph的半监督学习框架。L1 Graph 受启发于每个样本可以通过训练数据的稀疏线性加和进行重建。通过一个求解L1优化问题,可以得到稀疏重建的系数,然后利用这些系数作为L1 Graph的边的权重。 • 传统的构造图的方法包含两个独立的步骤:确定边是否邻接;计算边的权重。L1 Graph将这两个步骤合并进行,而且构造L1 Graph的过程是与参数无关的。 • 受启发于稀疏表示在人脸识别领域的成功应用,我们提出了基于L1-Graph的半监督学习框架。在半监督人脸识别与图像分类上的大量实验证明了我们的L1Graph框架的优越性。
文章结构 • Abstract • Introduction • Traditional Graph Construction • L1-Graph:Motivation and Construction • Semi-supervised Learning over L1-Graph • Experiments • Conclusion and Future Work
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
图模型 • 训练集可以看做一个无向有权图G={X,W} • X:顶点集,每个训练样本是图中的一个顶点 • ,N为训练样本数 • W:相似度矩阵, 表示样本i和样本j的相似度 • 传统的图模型构造方法分为两步: • 确定两个顶点间是否存在一条边 • 计算边权重
Step1:选择边 • 近邻 • 如果两个样本点满足 ,则两个样本间存在一条边 • 常常导致若干个独立的子图 • K最近邻 • 如果 是 的最近邻的K个样本之一,那么这两个样本间存在一条边
Step2:计算边的权重 • 高斯核 • 欧式距离的倒数 • 局部线性重建系数:通过最小化L2重建误差,用样本的近邻样本对其进行重建
传统图模型的缺点 • 选择边和计算权重分开进行 • 严重依赖与参数 • 中的 ,K近邻中的K • 尤其是 ,很难选取一个合适的 • 应用于分类任务时往往效果很差 • 欧式距离下最近邻的样本往往并非同类样本
需要什么样的图 • 自适应的调整样本间关系 • 传统方法中,不同的数据分布就需要不同的参数 • Parameter-Free • 稀疏性 • 表征样本间局部关系的稀疏图包含对分类有用的信息[1] • 存储开销 • 辨别能力 • 更好的用于分类任务 • 目标:同类样本间权重较高,不同类样本间权重较低 [1]M. Belkin and P. Niyogi. Laplacian eigenmaps for dimensionality reduction and data representation. Neural Computation, 2003.
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
稀疏表示:示例 from Subject 1 down-sample to 12x10 对应两个最大的系数 扩展YaleB上随机选取1207个样本作为基,使用最小化L1范式后得到的稀疏系数。可以看出,对应最大的两个系数都是测试样本的同类样本。
稀疏表示 • 受启发与稀疏表示在人脸识别上的成功应用[1] • 任一训练样本可以由其余训练样本的线性组合来重构(允许一定重构误差),重构系数是稀疏的 • 使用重构系数做为两个样本之间的权重,表征样本间关系 • 求解稀疏表示是一个最小化L1范式问题 是一组基,y为待表示样本, 为重建系数 [1] J. Wright, A. Ganesh, A. Yang, and Y. Ma: Robust face recognition via sparse representation. TPAMI, in press, 2008.
最小化L1范式 • 最小化L1范式问题: • 特征维数远大于样本数目时,往往得不到稀疏的表示 • L1 Graph的做法:对任一样本,用除它之外的所有样本做基求解最小化L1范式问题 • 求解方法 • 基追踪(Basis pursuit) • 匹配追踪(Matching pursuit) • 最小全变分法 • 迭代阈值法
L1-Graph优点 • L1-Graph 是稀疏的 • 通过最小化L1范式得到的非零系数一般远小于特征维数 • L1-Graph是自适应的 • L1-Graph中每个样本近邻的数目是通过最小化L1范式来确定的,不需要人工设置参数 • L1-Graph包含辨别信息 • 权重较大边往往连接了同类的样本
L1 VS L2 • LLE也是最小化重建误差 • 最小化L1: • 为什么不用LLE? • LLE一般得不到稀疏表示 • LLE的最小化重建误差仅涉及部分样本 • LLE需要确定参数
不同Graph的邻接矩阵 • Yale上165幅图片 • b: k=3 ?
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
半监督学习 • 动机:现实应用中缺少足够有标注的训练数据 • 半监督学习:通过利用有标注数据和未标注数据间的数据分布关系来提升训练效果 • 方法: • EM with generative mixture models • self-training • co-training • transductive support vector machines, • graph-based methods.
基于图的半监督学习 • Graph Preserving Criteria • 其中 , , 是表征样本 属于不同类的概率的向量,即 其中K是类别数, 是给定类别k时 属于此类的概率 • 对于半监督学习, , 是有标注样本的概率向量, 是无标注样本的概率向量 • 对于
直观解释 • 当样本 非常相似时,那么他们之间的边的权重 就比较大,通过最小化这个目标函数使得样本之间的类别概率向量 相似,即 之间的类别信息相似。 • 相似样本属于同一类
目标函数化简 其中 D为对角矩阵,即W每行的元素和,其余元素全为 0, 为W每列的元素的和。 ,其中C是对称矩阵
推导过程的部分详解 • 标准二次型 • 矩阵的迹等于矩阵对角元素的和
半监督学习求解公式 • 对Y求导,得到 即 可以推出: 利用这个公式就可以求出未标注样本的类别
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
L1-Graph+SDA • SDA • Semi-supervised Discriminant Analysis,是一种基于图的半监督降维方法,可以同L1 Graph结合起来 • 把在低维特征空间定义的平滑正则项(Smoothness Regularization term)同类内散度结合起来,通过广义特征值分解找到最优的投影方向
SDA:Motivation • LDA很强大,但无法直接用于半监督学习,此时由于部分样本类别信息的缺失,不能很好的估记类内散度矩阵 • SDA • 使用有类别样本最大化不同类间的可分性,使用所有样本(有类别和无类别)估计数据间的内在结构 • 数据间的内在结构:总体散度矩阵,图模型
RDA • LDA目标函数: • 当训练样本不足时,为了防止overfitting,有时会加入一个正则项,即RDA(Regularized Discriminant Analysis)
RDA • 当有部分无类别样本时,设计 使其包含数据的流形结构 • 对于降维,近邻样本应该有近似的低维表示 • 使用图来表征近邻样本间关系
SDA • 定义正则项: • 最小化这个正则项,使得原始空间中临近的样本在映射后的低维空间中仍然相邻。 • 目标函数: 直观解释:最大化类间散度矩阵的同时,最小化总体散度矩阵,并使得原始空间中临近的样本在映射后的低维空间中仍然相邻
SDA求解 • 目标函数: • D为对角矩阵,对角元素为W各行元素的和 • 原目标函数化为: • 求解 可得到映射
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
实验 • 6个人脸识别库 • XM2VTS:295人,每人4张共1180幅图片,分辨率36*32 • ORL: 40人每人10张共400幅图片,分辨率32*28 • FERET:70人,每人6张图片共420幅图片,32*32 • CMU PIE:68人,每人选7幅(C27,C05,C29,C09,C07,及光照变化的8和11),32*32 • Yale:15人,每人11幅图片,32*32 • FRGC:275人的5628幅图片,每人图片数从4到6不等,32*32 • 物体分类的数据库 • ETH-80:8类图片,每类10个不同的物体共80个,每个物体41幅图片
对比图 • L1-Graph • LLE-Graph • K=3或K=6 • KNN-Graph • K=3或K=6 • 高斯核 • 高斯核
图对参数的敏感性实验 • FERET上的实验
讲解提纲 • 图模型 • 稀疏表示与L1-Graph • L1-Graph与半监督学习 • L1-Graph与半监督辨别分析 • 实验 • 结论及未来工作
结论及未来工作 • 我们提出了一种与参数无关的构建图的方法并将其应用于半监督学习。L1 Graph 受启发与每个样本可以通过训练数据的稀疏线性加和进行重建。通过求解一个L1优化问题,我们将构造图的两个步骤统一起来。在半监督人脸识别与图像分类上的大量实验证明了L1-Graph的优越性 • L1 Graph为我们进行数据降维的研究开启了一个新方向,未来工作包括 • 基于L1 Graph的无监督图像聚类 • 基于L1 Graph的半监督回归 • 利用L1 Graph与图嵌入的框架进行数据降维