1 / 45

机器学习基础

机器学习基础. Machine Learning Basics. 计科 - 龙伟斌 1800271002. catalog. Introduction Optimization : Least Square Method , LSM Regression : Logistics Regression , LR Classification : Support Vector Machine,SVM Summary. Introduction. 什么是机器学习?. Introduction. 计算机编程能力(左上) 个人专业领域(下面) 数学统计学知识

schuetz
Download Presentation

机器学习基础

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 机器学习基础 Machine Learning Basics 计科-龙伟斌 1800271002

  2. catalog • Introduction • Optimization:Least Square Method,LSM • Regression:Logistics Regression,LR • Classification:Support Vector Machine,SVM • Summary

  3. Introduction • 什么是机器学习?

  4. Introduction 计算机编程能力(左上) 个人专业领域(下面) 数学统计学知识 (右上)

  5. Introduction

  6. LSM • 线性拟合:

  7. LSM • 经验方程 • 确定a,b

  8. LSM • 考虑超定方程组,其误差函数: 即:

  9. LSM • 问题变成了:求误差函数最小值问题 • (1)求出该误差函数的所有极值点 (2)找到这些极值点,选择最小的极值点就是该函数的最值 (3)驻点可能需要单独判断

  10. LSM • 数学基础: • 法国数学家,阿德里安-馬里·勒讓德提出让总的误差的平方最小的y 就是真值,这是基于,如果误差是随机的,应该围绕真值上下波动。 • 高斯通过误差概率分布, ,假设一个联合概率密度函数(似然函数):

  11. LSM 当 成立时, 取得最大值。 如果最小二乘法成立,则当x 取平均值时取最大值。 如果误差的分布是正态分布,那么最小二乘法成立。

  12. LR • 对于线性回归模型: 通常处理因变量为连续变量的问题。 若因变量为定性变量,不再适用。需采用逻辑回归解决。

  13. LR • 逻辑回归在线性回归的基础上,添加了sigmoid函数,使其适用于二分类问题:

  14. LR 将sigmoid函数与线性模型结合: 预测函数

  15. LR • 构造损失函数 • 若使用线性回归中的均方误差和当代价函数 将预测函数代入,J(w)为非凸函数,意味着函数有许多的局部最小解,不利用问题求解。

  16. LR • 利用极大似然法构造损失函数: • 表示结果取1的概率,则: 将(1)结合: 两边取对数:

  17. LR • 所以损失函数(cross-entropy):

  18. LR • 根据梯度下降算法不断迭代找到最佳的参数θ值: 可以看出,在每次更新回归系数θ时都需要遍历整个数据集,耗时严重。这时可以采用随机梯度下降法,这时每次迭代时需要将样本重新打乱,然后用下式不断更新权重。

  19. LR • 对于逻辑回归的损失函数构成的模型,可能会有些权重很大,有些权重很小,导致过拟合,使得模型的复杂度提高,泛化能力较差。 • 正则化(Regularization)是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。

  20. LR L1正则化损失函数表达式(举例): L2正则化损失函数表达式: Lambda为正则项系数: 如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,但是可能出现欠拟合的现象; 如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。

  21. LR • SGD with Adaptable Stepsize

  22. SVM • 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

  23. SVM 置信风险 Ф(n/h) (样本数量/VC维) 经验风险 Remp(w) 真实风险:R(w)≤Remp(w)+Ф(n/h)

  24. SVM • 优点: • 小样本 • 非线性 • 高维模式识别 • 提高泛化性能 • 缺点  • 缺失数据敏感。 • 内存消耗大

  25. SVM • 线性函数:g(x)=wx+b => f(x)=sgn [g(x)] • 线性可分 (超平面) g(xi)>0 g(xi)<0

  26. SVM 几何间隔 现在把w和b进行归一化处理,那么间隔就可以写成: 解析几何中点xi到超平面g(x)=0的距离公式。

  27. SVM 几何间隔与样本的误分次数间存在关系: where:δ是样本集合到分类面的几何间隔, R=max ||xi||(i=1,...,n)即所有样本中向量长度最长的值。

  28. SVM • 增加约束条件 把所有样本点中间隔最小的那一点的间隔定为1,则: yi[(w·xi)+b]≥1 (i=1,2,…,l) (l是总的样本数)     两分类问题转化成数学形式——一个带约束条件的最小值问题:

  29. SVM 当点落在可行域边界上,即让约束条件等式成立时, 唯一决定了超平面,被称为支持向量。 SVM的一个重要性质: 训练完成之后,大部分的训练样本都不需要保留,最终的模型仅与支持向量有关。

  30. SVM 线性分类器问题的描述: 在这个问题中,目标函数是w的二次函数,所有的约束条件都是w的线性函数。这种规划问题也叫做二次规划(Quadratic Programming,QP)。而且,由于它的可行域是一个凸集,因此是一个凸二次规划。凸二次规划的优点在于它有全局最优解。

  31. SVM 通过拉格朗日对偶性来解决该凸二次规划问题 对于式(10)的每条约束添加拉格朗日乘子αi≥0,则该问题的拉格朗日函数可写为: Where:α⃗ =(α1,α2,…,αn)分别是对应着各个样本的拉格朗日乘子 将L(w⃗ ,b,α⃗ )对w⃗ 和b求偏导并将偏导数等于零可得: 将上式代回原式,即得原分类问题的对偶问题。

  32. SVM • SVM问题的KKT条件 • 其实对于 即 满足Karush-Kuhn-Tucker(KKT)条件

  33. SVM • 回到上面代入求解的优化问题: 求出α后,可以得到w和b,以及分隔超平面 w.T*x+b=0。 如何求解α呢, ——用二次规划算法求解 ——Sequential Minimal Optimization(SMO)算法

  34. SVM • 坐标上升算法(Coordinate Ascent) 每次通过更新多元函数中的一维,经过多次迭代直到收敛来达到优化函数的目的。 但由于约束条件2,在SMO算法中我们每次需要选择一对变量 进行优化处理(对i进行修改,修改量与j相同,但方向相反),其它α作常数项处理。 对α值的选择

  35. SVM • 如果样本线性不可分: • 二次曲线(非线性函数)

  36. SVM • 新建一个向量y和a: g(x)就可以转化为f(y)=<a,y>=ay -> 线性函数 原来在二维空间中一个线性不可分的问题,映射到高维空间后,变成了线性可分的!因此也形成了我们最初想解决线性不可分问题的基本思路——向高维空间转化,使其变得线性可分。

  37. SVM 但如果简单地映射到高维空间中,然后再根据内积的公式进行计算会带来维度爆炸,甚至结果不可计算。 因此需要直接在原来的低维空间中进行计算,并根据内积值进行分类。接受低维空间的输入值,却能算出高维空间的内积值的函数为核函数。

  38. SVM • 几个比较常用的核函数如下:

  39. SVM • 对核函数的选择,现在还缺乏指导原则。 • 在常用的核函数中,应用最广泛的是具有较好学习能力的径向基核函数(radial basis function,RBF) 核(又称高斯核),无论低维、高维、小样本、大样本等情况,RBF 核均适应,具有较宽的收敛域,是较为理想的分类依据函数。

  40. SVM • 再来考虑下面这种情况(近似线性可分):

  41. SVM • 在现实中很难找到一个超平面将不同类别的样本完全划分开,即很难找到合适的核函数使得训练样本在特征空间中线性可分。即使找到了一个可以使训练集在特征空间中完全分开的核函数,也很难确定这个线性可分的结果是不是由于过拟合导致的。 • 解决该问题的办法是在一定程度上运行SVM在一些样本上出错,为此引入了“软间隔”(soft margin)的概念(相对为硬间隔)。

  42. SVM • 为此引入一个非负的松弛变量ξ(Slack Variables),把损失加入到目标函数里的时候,就需要一个惩罚因子(cost): • Where:ξ代表离群点离群的距离 C 代表离群点带来的损失的权重

  43. Summary • SVM和LR区别: • 损失函数不同。 • LR对异常值敏感,SVM对异常值不敏感(抗噪能力,SVM比较好)。 • 支持向量机只考虑局部的边界线附近的点,而逻辑回归考虑全局 • LR模型找到的那个超平面,是尽量让所有点都远离他,而SVM寻找的那个超平面,是只让最靠近中间分割线的那些点尽量远离,即只用到那些支持向量的样本。

  44. Summary • SVM和LR区别: • 计算复杂度不同。对于海量数据,SVM的效率较低,LR效率比较高。 • 当样本较少,特征维数较低时,SVM和LR的运行时间均比较短,SVM较短一些。准确率的话,LR明显比SVM要高。当样本稍微增加些时,SVM运行时间开始增长,但是准确率赶超了LR。SVM时间虽长,但在接收范围内。当数据量增长到20000时,特征维数增长到200时,SVM的运行时间剧烈增加,远远超过了LR的运行时间。但是准确率却和LR相差无几。(这其中主要原因是大量非支持向量参与计算,造成SVM的二次规划问题)

  45. DOWNLOADSathttp://vcc.szu.edu.cn Thank You!

More Related