930 likes | 1.1k Views
机器学习研究. 王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所. 反思. 网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢? 我们的研究应注意哪些课题呢?. 需求--- NII 计划. 不分地域地、有效地获得与传输信息。 不分地域地、有效地共享硬软资源。 有效地利用信息,以提高生产率。 保证信息安全。. 在过去的十年中,做了什么?. 以浏览器为核心技术的 “ 有效获得信息 ” 的研究取得了预期效果。 人们已可以从不同地域有效地获得信息。 但是,,,. 硬软资源的使用. 在网络上的硬软资源的利用率只有3-5%。
E N D
机器学习研究 王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所
反思 • 网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢? • 我们的研究应注意哪些课题呢?
需求---NII计划 • 不分地域地、有效地获得与传输信息。 • 不分地域地、有效地共享硬软资源。 • 有效地利用信息,以提高生产率。 • 保证信息安全。
在过去的十年中,做了什么? • 以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。 • 人们已可以从不同地域有效地获得信息。 • 但是,,,
硬软资源的使用 • 在网络上的硬软资源的利用率只有3-5%。 • 大量计算资源没有由于网络设施的支持而被充分利用。 • 硬软件的快速更新,导致对环境的污染。
信息的有效使用 • 由于技术发展的滞后,在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1%。 • 占用大量硬软资源的信息正在大量地被浪费。
信息安全 • 信息的安全还没有保证。
提高信息使用率 • 以机器学习为理论基础的各种方法,是提高信息使用率的有效途径之一。
机器学习 • 复杂数据分析(符号机器学习)
机器学习 • 机器学习的一般说明 • 统计机器学习 • 集成机器学习
机器学习的研究动力 • 领域应用驱动。 • 算法驱动。
领域应用驱动 • 自然语言数据分析。 • DNA数据分析。 • 网络与电信数据分析。 • 图像数据分析。 • 金融与经济数据分析。 • 零售业数据分析。 • 情报分析。 • 没有一种算法可以解决复杂的实际问题。需要各种算法集成。
算法驱动 • 海量数据(108-10)。 • 算法的泛化能力,或算法可解释。 • 不同类型数据的学习方法。
机器学习研究热点的变迁 • 1989年(Carbonell), 1997年(Dietterich) • 符号机器学习。 符号机器学习。 • 连接机器学习。 集成机器学习。 • 遗传机器学习。 统计机器学习。 • 分析机器学习。 增强机器学习。
机器学习计算的说明 • 令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集QW。 • 机器学习的任务就是根据这个世界的对象子集Q,计算这个世界的统计分布。这样,在统计意义下,这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。
三个要求 • 一致性假设:机器学习任务的本质。 • 对样本空间的划分:决定对样本的有效性。 • 泛化能力:决定对世界的有效性。
一致性假设 • 假设世界W与被观察的对象集合Q具有某种相同的性质。 • 称为一致性假设。
基于统计的假设 • 原则上说,存在各种各样的一致性假设。 • 在统计意义下,一般假设: • W与Q具有同分布。或, • 给定世界W的所有对象独立同分布。
划分 • 将被观测的对象集合放到一个n维欧氏空间,寻找一个超平面,使得问题决定的不同对象分在不相交的区域。 • 机器学习主要研究的是这部分内容,即,寻找划分对象集合的超平面(等价关系)。
超平面类型 • 光滑且连续的超平面。 • 有限不光滑点,甚至有限不连续点的超平面。
光滑连续超平面作为研究基础 • Perceptron,人工神经网络是典型例子。 • 困难: • 对线性不可分的对象集合,如果限制算法是P的,则存在本质性困难。
泛化 • 机器学习的首要任务是划分。只有找到一个等价关系(模型),将不同类的样本划分为不同的类,才能考虑其他问题。 • 泛化是一个确定的划分对世界的分类能力。 • 由于可能存在不同的划分样本集合方法,其泛化能力不同,泛化能力最强的划分就是我们希望的分类器。
Duda的泛化能力描述 • 以样本个数趋近无穷大来描述模型的泛化能力。 • 泛化能力需要使用世界W来刻画,是无法构造的判据。 • 均方差可作为目标函数。
评述 • 由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外,线性不可分问题是一个困难。 • 在感知机时代,基于Duda泛化理论无法指导机器学习算法的设计,这样,评价机器学习算法只能以划分能力作为指标。 • Vapnik对这个问题做出重要贡献。 • 这样,注重从划分变为泛化。
以划分能力为目标的研究 • 这类研究的指导思想,一直延续到上个世纪的九十年代。 • 直到今天,还有大量的学者以此作为机器学习的指导思想。以BP算法为核心的神经网络研究是典型例子。 • 划分是机器学习的一个目标,但是,不是预测任务的主要研究目标。
神经网络---BP算法 • 使用了一种非线性的基函数。 • 这项研究的意义是为研究者回归感知机做好了舆论的准备。 • 其在科学上的意义,远不如提示人们再次注意感知机的作用更大。
统计机器学习理论与SVM • 对机器学习的研究者来说,统计机器学习理论所派生的算法SVM似乎更有吸引力。 • 但是,如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了。 • 事实上,Vapnik的统计理论才是其精华,而基于这个理论的算法只是从这个统计理论派生的自然结果。
机器学习的统计假设 • 机器学习的统计基础是基于经验风险最小假设,以此,对机器学习算法所建模型的泛化能力估计(经验风险)。
Vapnik的统计观点 • Vapnik希望改变Duda的统计观点。 • 泛化描述“从样本数趋于无穷大”变为“在给定样本集”基础上判定。 • 由此,建立基于样本集合结构的VC维来描述的理论。 • 这样,机器学习的目标函数就可以建立在样本集合的结构之上。 • 这是统计机器学习理论的精髓。
泛化能力 • 以下不等式依概率1-成立: • R: 包含所有样本的球半径 • M: 边缘 • l: 样本个数
泛化不等式的解释 • M>0,边缘不能等于零。这意味着,样本集合必须是可划分的。 • 边缘最大,泛化能力最强。泛化能力可以使用样本集合的边缘来刻画。 • 泛化能力的描述无需使用世界W来刻画,而只需样本集合Q来刻画。
线性可分问题 • 定理: • 如果一个样本集合是线性可分的,它们一定可以构成两个不相交的闭凸集。 • 这样,线性可分问题变为计算两个闭凸集的最大边缘问题。
线性不可分问题 • 划分问题:怎样获得两个不相交的闭凸集。 • 泛化问题:怎样使两个闭凸集之间的距离最大。
核技术 • 可以证明,一定存在一个映射,称为核函数,将在欧式空间定义的样本映射到特征空间(一个更高维的空间),使得在特征空间上,样本构成两个不相交的闭凸集。 • 研究核函数选择的技术称为核技术。
SVM • 给定核函数,如果它可以保证将样本集合在特征空间变换为两个不相交的闭凸集,则对这个样本集合的最大边缘可以通过二次规划、计算几何等方法获得。由此,可以获得支持向量。 • 这就是SVM。
未解决的问题 • 在特征空间样本集合是否可以划分为不相交的闭凸集,决定于核函数的选择。 • 最大边缘尽量大,也决定于核函数的选择。 • 核函数的选择没有一般的方法。 • 准确地说,加大特征空间维数是一个方法,确定最小维数没有P算法。
解决线性不可分问题的方法 • 核函数选择的困难可能是根本性的。 • 技术措施:同时考虑不满足一致性假设的情况。 • 软边缘。 • 集成机器学习。
两类技术措施的统计解释 • 目的是解决样本集合不满足一致性假设,采用不确定性来补充,以使得模型与实际世界的统计分布一致。 • 措施: • 软边缘:将边缘改为软性(有个范围),以适应需要。 • 集成机器学习:多个分类器集成,以使用不同模型补充一个模型的不足。
集成机器学习动机 • 弱分类器设计简单。 • 在理论上似乎与Madaline类似。
集成机器学习 • 1990年Shapire证明,如果将多个弱分类器集成在一起,它将具有强分类器的泛化能力。 • 进而,又说明,这类集成后的强分类器具有统计学习理论的基础。
弱分类器 • 如果一个分类器的分类能力(泛化)稍大于50%,这个分类器称为弱分类器。 • 这意味着,比掷硬币猜正面的概率稍好,就是弱分类器。
集成 • 在分类时,采用投票的方式决定新样本属于哪一类。 • 由于每个分类器的分类能力不同,在集成时,需要对所有分类器加权平均,以决定分哪类。
为什么吸引人 • 弱分类器比强分类器设计简单 • 以统计学习理论为基础
Vapnik的贡献 • 给出了可以指导机器学习算法设计的泛化理论。 • 成为一种机器学习的规范。 • 建立了从数据到分布的基本方法。 • 以后机器学习的研究必须考虑从数据到分布的归纳机理问题。 • R
复杂数据分析 • 复杂数据分析的一般性说明 • 符号机器学习
复杂数据分析---一类需求 • 机器学习研究方兴未艾,还有大量的理论与技术问题未解决。 • 由于获得数据的手段的改善,在各行各业人们可以方便地获得越来越多的数据。但是,这些数据的积累也带来副作用,一方面,消耗大量资源,另一方面,无法使用的数据,就是垃圾。 • 另一个任务悄悄兴起,这就是复杂数据分析。
基于统计的数据分析不能满足需求 • 在某些行业,仅仅依赖积累的数据所建立的模型不能准确地预测未来。 • 原因是:对大多数情况, • 积累的数据与未来将发生的事件不满足一致性假设,而是可能相差甚远。 • 个别事件可能比统计显现的事件更为重要。
例如 • 零售业:积累的数据只能部分指导未来的进货策略与销售策略,特别是变化快的行业,例如,音像制品。 • 电信业:对长久大户的特殊服务,对电信业至关重要。从海量数据中发现这些用户仅仅使用统计方法是不够的。 • 情报分析:寻找不同常规行为的事件。
人们不相信模型 • 由于大多数数据集合不能满足一致性假设,使得人们可能不一定相信来自观测数据所建立的模型。 • 医疗诊断、零售业的各种问题、经济分析等专家系统所面临的问题就于此有关。