Face Recognition with Learning-based Descriptor

Face Recognition with Learning-based Descriptor Authors: Zhimin Cao, Qi Yin, Xiaoou Tang, and Jian Sun 讲解人: 谢术富

提纲 • 作者信息 • 文章信息 • 拟解决的问题与采用的思路 • 本文的方法 • 实验 • 结论

作者的相关信息—第一作者 • Zhimin Cao • B.Eng., Tsinghua University • Email: czm008@ie.cuhk.edu.hk • Paper: • CVPR’10(1篇)。

? 作者的相关信息—第二作者 • Qi Yin • ITCS, Tsinghua University(清华大学理论计算机科学研究中心)

作者的相关信息—第三作者 • Xiaoou Tang(S’93-M’96-SM’02-F’09) • Professor, Department of Information Engineering, the Chinese University of Hong Kong. • Publication: • K. He, J. Sun, and X. Tang, " Single Image Haze Removal Using Dark Channel Prior ," CVPR, 2009. • … • Homepage: http://www.ie.cuhk.edu.hk/people/xotang.html

作者的相关信息—第四作者 • Jian Sun • 微软亚洲研究院视觉计算组研究员 • 1997,2000,2003于西安交通大学分别获得学士、硕士、博士学位。 • 研究兴趣 • 交互式计算机视觉(用户交互+视觉) • 互联网上的计算机视觉(大图像集合+视觉) • 论文 • CVPR’10(5篇) ICCV’09(1篇) SIGGRAPH’09(3篇) CVPR’09(2篇) • HomePage:http://research.microsoft.com/en-us/people/jiansun/

文章信息 • 文章出处 • CVPR 2010 • 相关文献 • Yoav Freund, Sanjoy Dasgupta, Mayank Kabra, Nakul Verma, Learning the structure of manifolds using random projections, NIPS 2007.

Abstract • We present a novel approach to address the representation issue and the matching issue in face recognition (verification). Firstly, our approach encodes the micro-structures of the face by a new learning-based encoding method. Unlike many previous manually designed encoding methods (e.g., LBP or SIFT), we use unsupervised learning techniques to learn an encoder from the training examples, which can automatically achieve very good tradeoff between discriminative power and invariance. • Then we apply PCA to get a compact face descriptor. We find that a simple normalization mechanism after PCA can further improve the discriminative ability of the descriptor. The resulting face representation, learning-based (LE) descriptor, is compact, highly discriminative, and easy-to-extract.

Abstract • To handle the large pose variation in real-life scenarios, we propose a pose-adaptive matching method that uses pose-specific classifiers to deal with different pose combinations (e.g., frontal v.s. frontal, frontal v.s. left) of the matching face pair. • Our approach is comparable with the state-of-the-art methods on the Labeled Face in Wild (LFW) benchmark (we achieved 84.45% recognition rate), while maintaining excellent compactness, simplicity, and generalization ability across different datasets.

摘要 • 我们提出了一种新颖的方法来强调人脸识别(确认)中的表示和匹配问题。 • 首先，我们的方法利用一种新的基于学习的编码方法来编码图像上的微结构。不同于以前人工设计的编码方法(如LBP和SIFT)，我们利用无监督学习的方法从训练样本中得到一个编码器。 • 然后，我们应用PCA得到一个紧致的人脸表示。我们发现，PCA之后的一种简单的归一化操作可以进一步提高表示的判别能力。最终的人脸表示是紧致的，高判别性的，且易于提取的。 • 为了处理实际环境中的姿态变化，我们提出了一种姿态自适应的匹配方法，该方法利用了特定姿态的分类器来处理不同的姿态组合（例如, 正面对正面，正面对左侧）。在保持了较高的紧致性，简单性和不同数据集上的推广性的条件下，我们的方法同LFW上最好的方法是可比的(该方法达到了84.45%的识别率)。

在1000幅人脸图像上统计得到的模式分布图 本文所研究问题的提出 • LBP, HOG等是手工设计(handcrafted)的特征表示。 • 这些方法存在两个问题： • 手工设计的表示方法不能保证最优的表示。 • 在人脸图像上，模式的分布并不均匀，有些模式在人脸图像上很少出现。

本文的主要思想 • 提出基于学习的编码方法，利用无监督的学习方法来编码人脸的微结构。在1000幅人脸图像上统计得到的模式分布图 • 对基于学习的特征表示，进一步利用PCA得到更紧致的表示。 • 当一对图像是不同的姿态组合时，不同部件所起的作用是不同的。根据这一观察，训练了特定姿态组合的分类器，进行最后的分类。

文章结构 • Introduction • Overview of the framework • Learning-based descriptor extraction • Pose-adaptive matching • Experimental results • Conclusion and discussion

姿态自适应分类器 LE特征表示本文的方法

本文的方法 • 图像/块级别上的LE特征表示 • 部件的对齐 • 姿态自适应的匹配

采样与归一化 基于学习的编码与直方图表示 PCA降维基于学习的特征表示

采样与归一化 • 在半径为r的圆环上以等间隔采样r*8个像素，构成一个向量。 • 对该向量进行模归一化操作。

R1=1,R2=2 包括中心(25个点)(最优) R1=1,包括中心(9个点) R1=3 无中心(24个点) R1=4 R2=7 无中心(88个点) 采样方式

基于学习的编码 • 三种无监督学习的方法(向量量化) • K-means • PCA tree • 随机投影树(Random-projection tree) • 根据图像上采样得到的向量集合，利用无监督学习的方法得到一个codebook.

随机投影树的构建过程

PCA树&随机投影树 • 二者都是构建一棵树，叶子结点作为每个cluster的表示。 • 不同之处: 构建树的规则不同。

挑选规则 • PCA树: • 随机生成树: • 选择随机的单位投影方向。 • 根据选择的方向对样本点进行分裂。

特征表示 • 通过编码，输入图像变成了”码字”图像。 • 将“码字”图像划分为若干个图像块，提取直方图。 • 图像大小:84x96 图像块数目:5x7=35 • PCA降维.(256 code, 原始维数:256x35=8960维,降维后维数:400维)

－ S1 －＋－ S2 ＋－－－ S3 ＋－＋＋ S4 ＋ SVM 多LE表示 • 利用线性SVM组合不同LE表示产生的相似度。

本文的方法 • 图像/块级别上的特征表示 • 部件的对齐 • 姿态自适应的匹配

部件的对齐 • 利用相似变换分别对齐人脸的9个部件。 • 优点: 部件对得更准，而不需要考虑整幅人脸图像.

本文的方法 • 图像/块级别上的特征表示 • 部件的对齐 • 姿态自适应的匹配

姿态自适应配准 • 动机：当不同姿态的图像匹配时，不同部件的作用是不同的。

基本思路 • 将姿态划分为正面(F)、朝左(L)、朝右(R)三个类别。 • 姿态的分类 • 从Multi PIE数据库中选择了三幅Gallery图像，对测试图像计算它与三幅Gallery图像的相似度，将最相似的Gallery图像的姿态作为当前测试图像的姿态类别。

基本思路 • 给定人脸的姿态，一对图像的可能姿态组合有{FF, FL(LF), FR(RF), LL, LR(RL), RR}。 • 对给定的姿态组合，根据给定的训练集合来训练相应的线性SVM分类器。 • 给定一对测试图像时，根据姿态组合选择相应姿态组合的分类器进行分类。

实验 • LFW上测试 • 不同学习方法的影响 • PCA特征归一化与无归一化的对比 • LE与已有方法的对比 • 不同特征点对齐的影响 • 姿态自适应与无姿态自适应的对比 • Single LE与 Multiple LE的对比 • 本文方法与已有方法的对比 • Multi PIE上结果

LFW简介 • 13,233幅人脸图像，5749个人。其中，1680个人有两幅或更多幅图像，剩余4069人只有一幅图像。 • 图像大小是250x250个像素，JPEG格式，绝大多数彩色图像。 • 一些图像包含多张人脸，只有图像中心位置的人脸才作为定义的人脸。 • 对任意的训练-测试划分，每个子集的人是互斥的。

LFW测试协议 • 两种视图：视图1用于调试算法参数（模型或参数选择），视图2用于性能报告。 • 视图1：训练集(pairsDevTrain.txt)：1100对匹配图像与1100对未匹配图像；测试集(pairDevTest.txt)：500对匹配图像与500对未匹配图像 • 视图2：性能报告。只能用一次。包括10个子集。一旦方法或模型通过视图1确定了，该方法或模型利用视图2的数据进行评测。10折交叉验证。

LFW测试协议 • 限制的训练(restricted training) • 实验者不能利用人的名字来推断非训练集给出的两幅图像的等价性: 例如，乔治.布什的图像对(10,12)与(42,50)来自同一类，实验者不能利用(10,42)作为同一类放入训练集中；实验者可利用对的等价性来扩充训练集：例如，(1,2)与(2,3)是同一类，那么（1,3）可以加入训练集。 • 非限制的训练(unrestricted training) • 实验者可以利用人的名字来构建任意的训练与测试对(peopleDevTrain.txt&peopleDevTest.txt). 但是，报告结果时测试数据只能用pairs.txt文件. • 常见方法所属类别: • PCA, SVM, LBP等属于限制训练的方法。 • LDA属于非限制训练的方法。

LFW测试协议 • View2估计的平均精度: pi表示Veiw2利用子集i测试时的分类精度. • View2上精度的标准差: • 精度应当根据独立于测试数据选择的参数与阈值确定。

Restricted training results Unrestricted training results LFW测试结果

不同学习方法的影响 • 测试: LFW • 随机投影树要比PCA树，K-Means更好，因此被选作学习方法。

PCA特征归一化与无归一化的对比 • 直接利用PCA特征性能比LE表示要差。 • 对PCA特征进行L1或L2归一化后,性能会有较大提升。 • “特征L2归一化+欧式距离”等价于”consine相似度”。

LE与已有方法的对比 • Single LE+PCA比LBP高一些。 • Multiple LE相比Single LE有较大提高。

不同特征点对齐的影响 • 5点对齐比2点对齐有很大提升。 • 部件级上的对齐同5点对齐的对比并不明显。

图像块的划分 姿态自适应与无姿态自适应的对比 • 每种姿态组合，随机采样3000 同类/异类对，对6种姿态组合，共有18000个样本。 • 取一半作训练集，另一半做测试集。

Single LE与 Multiple LE的对比 整幅图像编码直方图 PCA Single LE+holistic 相似度向量(9维) 姿态自适应分类部件 LE Single LE+Comp 相似度向量(4维) 整幅图像 LE SVM Multiple LE+Comp 相似度向量(36维) 姿态自适应分类部件 LE Multiple LE+Comp

Single LE与 Multiple LE的对比 • Multiple LE+comp最优 • Single LE+comp与Multiple LE+holistic相当

本文方法与已有方法的对比 • 同类方法中，排名第三。

Multi PIE上结果 • 在LFW上训练得到的LE码本。 • 推广性能还不错。

Face Recognition with Learning-based Descriptor

Face Recognition with Learning-based Descriptor

Presentation Transcript

Face Recognition

Invariant-Based Face Recognition

Face Recognition

Face Recognition

Face Recognition

Face Recognition

Face Recognition

FACE RECOGNITION

Face Recognition with Learning-based Descriptor

Face Recognition

Invariant-Based Face Recognition

Face Recognition

FACE RECOGNITION

Face Recognition

Solution Deployment Descriptor Face to Face

Comparing Kernel-based Learning Methods for Face Recognition

Face recognition

Face Recognition Using the Weber Local Descriptor

Face Recognition

HMM Based Face Recognition System with SVD Parameter

Invariant-Based Face Recognition

Face Recognition