290 likes | 426 Views
回归问题. 林琛 助理教授. 例:房产估值问题. 假设你是一个房产中介,你过去成功销售了若干套房子,以下是这些房子的基本信息和价格(来自厦门房产网) 如果一个新客人希望你帮他销售一套房屋,你该如何定价?. 一些概念( 1 ). 学习 learning 学习 机器针对某个任务 T 的用 P 衡量的性能随着经验 E 而自我提升 监督学习 Supervised Learning 学习 机器通过大量有标记的 训练集( training set ) 进行学习(建立模型 model ),并对未标记的 测试集( test set ) 进行预测输出。 训练集
E N D
回归问题 林琛 助理教授
例:房产估值问题 • 假设你是一个房产中介,你过去成功销售了若干套房子,以下是这些房子的基本信息和价格(来自厦门房产网) • 如果一个新客人希望你帮他销售一套房屋,你该如何定价?
一些概念(1) • 学习learning • 学习机器针对某个任务T的用P衡量的性能随着经验E而自我提升 • 监督学习Supervised Learning • 学习机器通过大量有标记的训练集(training set)进行学习(建立模型model),并对未标记的测试集(test set)进行预测输出。 • 训练集 • M:训练样例个数,x:训练样例,y:标记 • 一个样例通常有多个属性(特征feature),通常用上标表示第几个训练样例,用下标表示第几个特征 • 测试集 • N:测试样例个数,:测试样例,:预测标记
课堂测试(1) • 用符号表示例子中的训练集和测试集
一些概念(2) • 任务 • 回归 • 如果标记是实值(real value) • 分类 • 如果标记是离散值(discrete value) • 在某些场合下回归和分类是可以互相转化的 • 信息检索
课堂测试(2) • 硅谷著名的数据挖掘平台Kaggle.com最近上线了一些新的竞赛,请问其中哪些是回归问题,哪些是分类问题? • KDD Cup 2012:预测腾讯微博的用户是否会对一个推荐的项目进行关注 • Benchmark:预测公司债券的交易价格 • ASAP:自动为学生论文打分 • Heritage:预测下一年度哪些保险人会生病入院
房产估值问题:一元线性回归 • 简单起见,我们只考虑面积对房价的影响
一些概念 • 目标函数 • 任务目标的确切表示 • 假设h/模型M • 目标函数的形式 • 假设空间H(hypothesis space) • 假设的集合 • 损失函数cost function • 通过最优/小化损失函数来得到最好的目标函数 训练集 学习算法 面积 预测价格 h
房产估值问题:目标与假设 • 目标函数 • 假设 如何确定参数得到最终的目标函数?
损失函数 • 损失函数的直观意义 • 误差最少 • 损失函数与参数的关系(图) • 一个参数 • 两个参数
损失函数优化初探 • 梯度下降法 Correct: Simultaneous update Incorrect:
假设空间 • 假设空间/模型选择 • 显然假设依赖于观测/训练数据 • 性能决定于训练数据能多好的反映测试样本的分布 • 假设评估 • 在有限的观测数据上,如何判断假设的精度
多元回归 • 考虑多个特征 • 假设总有一个特征量 • 则表示为矩阵形式 • 损失函数
课堂测试(3) • 如果采用如下的假设,你会得到什么结论? • h是关于x的函数 • 损失函数是关于 的函数 • 假设随机选取的初值是 • 步长为0.05 • 第一步得到的参数值是多少?
特征归一化 • 如果特征的尺度不一样,会出现什么问题? • 特征归一化 • 使每一维特征一样的范围[-1,1],且平均值为0 • 为此令 • 需在训练集和测试集上做
课堂测试(4) • 如何进行合理的特征归一化?
过拟合/欠拟合 • 模型 • 太复杂,参数太多 • 特征线性相关 • 训练集中 • 训练样本数过少 房产估值中,如果特征包括(面积,客厅面积,厨房面积,卧室面积阳台面积,楼层,朝向,装修,年代等) Low bias,High variance Low bias,Low variance Low bias,Low variance High bias,Low variance
模型选择(1) • 理想的假设:低偏差,低方差 • 真实误差与训练误差:交叉验证
课堂测试(5) • 关于训练误差及交叉验证误差,下面4个图,哪幅是对的,为什么? 模型复杂度 模型复杂度 模型复杂度 模型复杂度
课堂测试(6) • 正则项的\lambda设置的很大时,以下哪些说法是对的 • 可能造成过拟合 • 模型参数\theta越小 • 梯度下降算法不能收敛
模型选择(2) • 也可以采用正则项的方法防止过拟合 • 正则项系数\lambda的选择 • 同样采用交叉验证尝试 • 注意这里模型的复杂度可以设置高一些
课堂测试(7) • 下面4副图反映Bias/variance曲线随着正则项系数的变化情况,其中哪些是正确的? \lambda \lambda \lambda \lambda
训练集/特征集大小的影响 • 需要分是否过拟合 • 过拟合 • 增加训练集有用 • 减少特征可以看作降低模型复杂度 • 欠拟合 • 增加训练集没有用 • 增加特征可以看作提高模型复杂度
广义线性回归 • 我们通常使用线性形式的模型,因为 • 模型计算简单 • 易于解释 • 是对真实模型的近似,尽管真实的模型极可能不是线性的 • 广义线性回归 什么时候特别需要考虑引入基函数?
几种常见的基函数 • 多元回归: • 多项式: • 多项式: • 全局性: • 分段函数 • 其他非线性函数
总结:如何设计一个学习机器 • 明确目标函数 • 模型/假设目标函数的确切形式 • 选择损失函数 • 优化模型参数 • 模型选择 • 评估