分类技术概论及前沿问题

分类技术概论及前沿问题 陈险峰

1 2 3 4 分类技术前沿问题—人脸识别数据分类技术概况数据分类方法介绍各种方法比较评述主要内容

数据分类的简含义 我们都曾经有这样的经验，在人流攒动的电影院门口等待相约而至的朋友，通过找寻与识别，能够在人群中一下子发现熟悉的脸，其实这个过程就是一个数据分类的过程。相较于要发现的知识完全未知的无监督学习，数据分类是一种典型的有监督的机器学习方法，目的是从一组已知类别的数据中发现分类模型，以预测新数据的未知类别。

用刚才我们提到的寻找朋友的过程举例，首先从自己熟知的朋友身上提取特点，比如脸型、身材、穿着等，这就形成了一个简单的分类模型。用刚才我们提到的寻找朋友的过程举例，首先从自己熟知的朋友身上提取特点，比如脸型、身材、穿着等，这就形成了一个简单的分类模型。然后在电影院门前对每一个发现的陌生人进行判断，“是朋友”或者“不是朋友”，从而对新数据进行了预测。 x √ x

故障检测 科学研究 • 分类技术的应用有效性分析银行医疗诊断数据分类技术医疗目标市场定位商业图形处理工业信用卡审批 ● ● ●

数据分类技术在目标市场定位、医疗诊断、故障检测、有效性分析、图形处理以及信用卡审批等领域都有非常广泛的应用，可以说，从商业、银行等行业到医疗与科学研究等领域，都可以看到分类的广泛应用。除了这些专业领域，日常生活中也经常用到分类技术，就如上文中举出的寻找朋友的例子一样，平时我们可以根据以往的生活经验，利用风向、湿度、温度等指标对今天的气象状况进行分类，得到“适合出行”或者“不适合出行”两种类别，用来指导人们进行户外活动。数据分类技术在目标市场定位、医疗诊断、故障检测、有效性分析、图形处理以及信用卡审批等领域都有非常广泛的应用，可以说，从商业、银行等行业到医疗与科学研究等领域，都可以看到分类的广泛应用。除了这些专业领域，日常生活中也经常用到分类技术，就如上文中举出的寻找朋友的例子一样，平时我们可以根据以往的生活经验，利用风向、湿度、温度等指标对今天的气象状况进行分类，得到“适合出行”或者“不适合出行”两种类别，用来指导人们进行户外活动。

数据分类的过程 一个完整的数据分类过程一般包括模型构造、模型测试和模型应用三个步骤，具体来说，我们可以将数据分成两个数据集，分别是训练集和测试集，用于模型构造和模型测试。整体的步骤说明如下。

1 2 3 模型构造在这个阶段，分析样本的类别和其具备的一些特征之间的依赖关系，并将这种关系用特定的模型表示出来。模型测试测试的过程是对测试数据依次进行检测，根据模型确定样本的类别，与实际类别相比较，相同即是结果正确。模型应用这个过程与模型测试基本相同，只是输入的数据是未知的，例如，在电影院门口观察陌生人，在其中寻找朋友。 • 数据分类的过程详解

2 1 3 4 数据分类方法介绍数据分类方法介绍各种方法评述分类技术前沿问题—人脸识别

数据分类方法介绍 现在我们使用的分类方法中比较常用的有决策树方法、神经网络方法、遗传算法、支持向量机，除此以外还有粗糙集理论以及贝叶斯分类等方法，上图详细列出了现阶段正在使用的各种分类方法，下面将对重要方法进行介绍。

决策树分类法 所谓“决策树”，顾名思义，它具有树状结构，根据层次的不同，节点分为根节点、内部节点和叶节点三类，每个节点对应一个样本集，根节点作为“树根”，对应的是整个样本集，内部节点类似于树干枝杈，对应样本子集，叶节点就相当于树叶了，对应一个类标志。根节点和内部节点含有一个对于样本属性的测试，根据测试的结果将样本集划分为两个或者多个子集，每个子集形成一个分支，由叶节点内的类标志来标识，就像树不断分散的枝杈茎叶一样，如右图所示。

我们用制造厂商经常使用会员分类案例来进一步说明决策树的使用方法，在分类模型中，以年龄作为属性，根节点对应的是整个样本集即所有参与某自行车厂商调查的顾客，内部节点对应样本子集，比如年龄在67岁以上的顾客群体。根节点和内部节点含有一个对于样本属性的测试，即对年龄加以限制的测试。我们用制造厂商经常使用会员分类案例来进一步说明决策树的使用方法，在分类模型中，以年龄作为属性，根节点对应的是整个样本集即所有参与某自行车厂商调查的顾客，内部节点对应样本子集，比如年龄在67岁以上的顾客群体。根节点和内部节点含有一个对于样本属性的测试，即对年龄加以限制的测试。 • 使用1000个会员事例训练模型后得到的决策树分类如下：随后可以从新导入一批已知数据进行模型测试，完成这个步骤，如果模型可用，便将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大，随后自行车厂商就可以有选择性的投递广告册。图中矩形表示一个拆分节点，矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量，颜色越深包含的事例越多，如全部节点包含所有的1000个事例，颜色最深。节点中的条包含两种颜色，红色和蓝色，分别表示此节点中的事例购买和不购买自行车的比例。这样一来，便可以通过条件得出在哪个年龄段的哪些地区的人，最容易购买自行车，至此建立了模型。

神经网络分类法 人类的大脑有近1000亿个神经元和十倍于此的神经胶质细胞。神经网络是一种具有若干连续处理结点的并行计算系统，它建立了一种数学模型，试图去模仿人类的大脑。神经网络将每一个连接看作一个处理单元，这些处理单元结点通常称作神经元，来表明脑神经之间的关系。

神经元采用一系列数学函数，通过汇总和转换对数据进行处理，一个神经元的功能有限，但若干个神经元连接起来形成系统后，就可以创建一个智能模型，神经元可以有许多种不同的方式互连，为了更精确地拟合需要对建立模型的数据反复训练若干次，甚至上千次。神经元采用一系列数学函数，通过汇总和转换对数据进行处理，一个神经元的功能有限，但若干个神经元连接起来形成系统后，就可以创建一个智能模型，神经元可以有许多种不同的方式互连，为了更精确地拟合需要对建立模型的数据反复训练若干次，甚至上千次。下图是神经网络算法模拟人类大脑神经元的详细示例。

为了更具体地明确神经网络算法的概念，我们用银行对用户划分推广不同的信用卡案例做分析。下图中每个椭圆型节点接受输入数据，将数据处理后输出。输入层节点接受客户信息的输入，然后将数据传递给隐藏层，隐藏层将数据传递给输出层，输出层输出客户属于哪类信用卡。这类似于人脑神经元受到刺激时，神经脉冲从一个神经元传递到另一个神经元。为了更具体地明确神经网络算法的概念，我们用银行对用户划分推广不同的信用卡案例做分析。下图中每个椭圆型节点接受输入数据，将数据处理后输出。输入层节点接受客户信息的输入，然后将数据传递给隐藏层，隐藏层将数据传递给输出层，输出层输出客户属于哪类信用卡。这类似于人脑神经元受到刺激时，神经脉冲从一个神经元传递到另一个神经元。在大量客户事例输入后，模型会不断调整，使之更吻合真实情况，就像是人脑通过在同一脉冲反复刺激下改变神经键连接强度来进行学习。

遗传算法 “物竞天择，适者生存”是达尔文生物进化论的基本原理，解释了物种总是向着更适应自然界的方向进化的规律，只有适应自然环境的个体才能幸存下来，繁衍后代，适应力差的会在竞争中被淘汰。遗传算法（Genetic Algorithms）从字面上看便是继承生物学的，它模拟大自然中种群在选择压力下的演化，从而得到问题的一个近似解。

遗传算法流程 在遗传算法中，对于一个最优化问题，一定数量的候选解（称为个体）的抽象表示（称为染色体）使得种群向更好的解进化。进化从完全随机个体的种群开始，之后一代一代发生。在每一代中，整个种群的适应度被评价，从当前种群中随机地选择多个个体，通过自然选择和突变产生新的生命种群，该种群在算法的下一次迭代中成为当前种群，具体的流程见右图。

为了使理解更加容易，我们引用网络上面一个有趣的例子。首先，我们知道生物个体长什么样子很大程度上是由染色体上的基因决定的。同样，如果我们把100个半透明三角形组成的东西看成一个生物个体，比如扇贝，我们也可以说它的样子是由这些三角形的具体位置和颜色决定的。所以，我们可以把一个一个的半透明三角形看作是这些扇贝的“基因”。而组成扇贝的这100个基因就组成了每个扇贝个体的“染色体”。为了使理解更加容易，我们引用网络上面一个有趣的例子。首先，我们知道生物个体长什么样子很大程度上是由染色体上的基因决定的。同样，如果我们把100个半透明三角形组成的东西看成一个生物个体，比如扇贝，我们也可以说它的样子是由这些三角形的具体位置和颜色决定的。所以，我们可以把一个一个的半透明三角形看作是这些扇贝的“基因”。而组成扇贝的这100个基因就组成了每个扇贝个体的“染色体”。程序的目的，是让由100个三角形组成的扇贝，最终看上去像是Firefox的图标，我们模拟生物界的繁衍行为，选择两个原有的扇贝，然后从这两个扇贝的染色体中随机选取一共100个基因组成新个体的染色体。在定义好基因，写好繁衍、变异、评价适应性、淘汰和终止的代码之后，我们随机产生一个适当大小的种群，然后让它这样一代代的繁衍、变异和淘汰下去，到最后终止时会看到右上角图的结果。

支持向量机 简单概括，支持向量机用线性分类器划分样本空间，但是也可以处理线性不可分的情况。可分的时候存在超平面把训练集一分为二，支持向量机能找到一个最优的决策面，把训练集最好地分割成两类样本，对于线性不可分的情况则是用核函数把样本映射到一个高维空间中，然后在这个空间中寻找超平面分割两种类别，正如右图所示，左边的是复杂的低维空间样本分散，线性不可分，但通过核函数的映射，可以建立一个简单的高维空间，在里面寻找到超平面。

统计分类法 线性回归回归算法逻辑回归统计分类朴素贝叶斯贝叶斯分类算法贝叶斯网络

粗糙集理论 1982年，波兰科学家Z.Pawlak提出了粗糙集理论，用来表示不精确或者不确定的概念。众所周知，精确的概念有确定的边界或者说外延，比如说“人”，而不精确的概念外延是没有确定边界的，比如“发达国家”。粗糙集理论把一个集合的个体分为肯定属于、肯定不属于以及无法确定三类，通过上近似和下近似（见下图）运算，一个不精确的概念可以用一组精确的概念表示出来。

新样本 邻居 K-近邻算法 K-近邻算法把一组已知类别的历史数据作为训练样本集，根据已知样本的类别对新样本进行分类。它的思想如下：首先，计算新样本与训练样本之间的距离，找到距离最近的K个邻居，然后根据这些邻居所属的类别来判断新样本的类别，如果它们都属于同一个类别，那么新样本也是这个类别的，否则，对每个候选类别进行评分，按照某种规则确定新样本的类别。下图以不同像素焦距的相机价格举例，要求出新样本的价格，可以通过训练样本的值进行判断。

3 1 2 4 各种方法评述数据分类方法介绍数据分类方法介绍分类技术前沿问题—人脸识别

提升分类效果 效率鲁棒性数据质量不一准确度扩展性可简单表示评价分类方法的标准上文中介绍了许多分类方法，不同的分类方法有自己的特点，分类的效果和数据有关，有的数据噪声大，有的存在缺失，有的分布系数，有的属性间的相关性强，有的属性是离散的，有的属性是连续的或者混合的，因此，通用的分类方法并不存在。对于一个分类方法进行评价要考虑一下几个方面的问题。

常用分类方法评述

4 1 2 3 分类技术前沿问题—人脸识别数据分类方法介绍数据分类方法介绍各种方法评述

人脸识别系统定义与应用 • 人脸识别系统以人脸识别技术为核心，是一项新兴的生物识别技术，是当今国际科技领域攻关的高精尖技术。人脸因具有不可复制、采集方便、不需要被拍者的配合而深受欢迎。 • 人脸识别系统具有广泛的应用：人脸识别出入管理系统、人脸识别门禁考勤系统、人脸识别监控管理、人脸识别电脑安全防范、人脸识别照片搜索、人脸识别来防登记、人脸识别ATM机智能视频报警系统、人脸识别监狱智能报警系统、人脸识别RFID智能通关系统、人脸识别公安罪犯追逃智能报警系统等等。

人脸识别系统定义 人脸识别作为图像分析与理解的一个应用领域，在近些年得到了研究界及向光领域的充分重视，在公安（罪犯识别等）、安全验证系统、信用卡验证、医学、档案管理、视频会议、人机交互系统等方面都有着巨大应用前景。特别是在奥运会中，人脸识别技术了很大发展。右图是北京奥运会中人脸识别系统的日常运行。

特征提取 人脸识别人脸辨识：确定眼睛位置，寻找验证人脸预处理：归一化识别结果输入图像人脸识别的步骤在人脸识别领域内，近期比较前沿的技术为S.Rowels等人提出的LLE算法，此算法主要在特征提取中起作用，不仅能够有效地发现数据的非线性结构，同时还具有平移、旋转不变性。四川大学采用这种非线性降维方法提取人脸特征，然后将提取出来的特征输入到BP神经网络进行训练得到人脸的类间判别信息，最后进行人脸识别，该方法承接国家自然科学基金委的奥运重点项目，研究结果已经在北京奥运会中得以体现。

人脸识别算法 • 人脸识技术中被广泛采用的区域特征分析算法，它融合了计算机图像处理技术与生物统计学原理于一体，利用计算机图像处理技术从视频中提取人像特征点，利用生物统计学的原理进行分析建立数学模型,即人脸特征模板。利用已建成的人脸特征模板与被测者的人的面像进行特征分析，根据分析的结果来给出一个相似值。通过这个值即可确定是否为同一人。

人脸识别的主要算法类型 • 基于LGBP的人脸识别方法 • 基于AdaBoost的Gabor特征选择及判别分析方法 • 基于SV的Kernel判别分析方法sv-KFD • 基于特定人脸子空间的人脸识别方法

主要功能模块 • 人脸捕获与跟踪功能：人脸捕获是指在一幅图像或视频流的一帧中检测出人像并将人像从背景中分离出来，并自动地将其保存。人像跟踪是指利用人像捕获技术，当指定的人像在摄像头拍摄的范围内移动时自动地对其进行跟踪。 • 人脸识别比对：人脸识别分核实式和搜索式二种比对模式。核实式是对指将捕获得到的人像或是指定的人像与数据库中已登记的某一对像作比对核实确定其是否为同一人。搜索式的比对是指，从数据库中已登记的所有人像中搜索查找是否有指定的人像存在。

人脸的建模与检索： 可以将登记入库的人像数据进行建模提取人脸的特征，并将其生成人脸模板（人脸特征文件）保存到数据库中。在进行人脸搜索时（搜索式），将指定的人像进行建模，再将其与数据库中的所有人的模板相比对识别，最终将根据所比对的相似值列出最相似的人员列表。 • 真人鉴别功能：系统可以识别得出摄像头前的人是一个真正的人还是一幅照片。以此杜绝使用者用照片作假。此项技术需要使用者作脸部表情的配合动作。 • 图像质量检测：图像质量的好坏直接影响到识别的效果，图像质量的检测功能能对即将进行比对的照片进行图像质量评估，并给出相应的建议值来辅助识别。

四川大学LLE与BP神经网络算法流程 利用四川大学的新近研究方法进行人脸识别的流程图如右图：训练部分，将人脸库的图像进行光照预处理；再进行LLE 运算得到低维人脸特征，然后送到BP神经网络进行训练（三层BP神经网络）。识别部分，将待识别人脸预处理后，LLE降维后用BP网络识别得到结果。

附录 • 最新前沿性工作介绍（电子版） • 《基于LLE和BP神经网络的人脸识别》 • 运用该方法的管理学博士硕士论文(代表性) • 《数据挖掘技术中分类算法的比较分析》

谢谢！ 知识管理与数据分析实验室

分类技术概论及前沿问题

分类技术概论及前沿问题

Presentation Transcript