1 / 29

回归问题

回归问题. 林琛 助理教授. 例:房产估值问题. 假设你是一个房产中介,你过去成功销售了若干套房子,以下是这些房子的基本信息和价格(来自厦门房产网) 如果一个新客人希望你帮他销售一套房屋,你该如何定价?. 一些概念( 1 ). 学习 learning 学习 机器针对某个任务 T 的用 P 衡量的性能随着经验 E 而自我提升 监督学习 Supervised Learning 学习 机器通过大量有标记的 训练集( training set ) 进行学习(建立模型 model ),并对未标记的 测试集( test set ) 进行预测输出。 训练集

alisa
Download Presentation

回归问题

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 回归问题 林琛 助理教授

  2. 例:房产估值问题 • 假设你是一个房产中介,你过去成功销售了若干套房子,以下是这些房子的基本信息和价格(来自厦门房产网) • 如果一个新客人希望你帮他销售一套房屋,你该如何定价?

  3. 一些概念(1) • 学习learning • 学习机器针对某个任务T的用P衡量的性能随着经验E而自我提升 • 监督学习Supervised Learning • 学习机器通过大量有标记的训练集(training set)进行学习(建立模型model),并对未标记的测试集(test set)进行预测输出。 • 训练集 • M:训练样例个数,x:训练样例,y:标记 • 一个样例通常有多个属性(特征feature),通常用上标表示第几个训练样例,用下标表示第几个特征 • 测试集 • N:测试样例个数,:测试样例,:预测标记

  4. 课堂测试(1) • 用符号表示例子中的训练集和测试集

  5. 一些概念(2) • 任务 • 回归 • 如果标记是实值(real value) • 分类 • 如果标记是离散值(discrete value) • 在某些场合下回归和分类是可以互相转化的 • 信息检索

  6. 课堂测试(2) • 硅谷著名的数据挖掘平台Kaggle.com最近上线了一些新的竞赛,请问其中哪些是回归问题,哪些是分类问题? • KDD Cup 2012:预测腾讯微博的用户是否会对一个推荐的项目进行关注 • Benchmark:预测公司债券的交易价格 • ASAP:自动为学生论文打分 • Heritage:预测下一年度哪些保险人会生病入院

  7. 房产估值问题:一元线性回归 • 简单起见,我们只考虑面积对房价的影响

  8. 一些概念 • 目标函数 • 任务目标的确切表示 • 假设h/模型M • 目标函数的形式 • 假设空间H(hypothesis space) • 假设的集合 • 损失函数cost function • 通过最优/小化损失函数来得到最好的目标函数 训练集 学习算法 面积 预测价格 h

  9. 房产估值问题:目标与假设 • 目标函数 • 假设 如何确定参数得到最终的目标函数?

  10. 损失函数 • 损失函数的直观意义 • 误差最少 • 损失函数与参数的关系(图) • 一个参数 • 两个参数

  11. 损失函数优化初探 • 梯度下降法 Correct: Simultaneous update Incorrect:

  12. 假设空间 • 假设空间/模型选择 • 显然假设依赖于观测/训练数据 • 性能决定于训练数据能多好的反映测试样本的分布 • 假设评估 • 在有限的观测数据上,如何判断假设的精度

  13. 多元回归 • 考虑多个特征 • 假设总有一个特征量 • 则表示为矩阵形式 • 损失函数

  14. 课堂测试(3) • 如果采用如下的假设,你会得到什么结论? • h是关于x的函数 • 损失函数是关于 的函数 • 假设随机选取的初值是 • 步长为0.05 • 第一步得到的参数值是多少?

  15. 特征归一化 • 如果特征的尺度不一样,会出现什么问题? • 特征归一化 • 使每一维特征一样的范围[-1,1],且平均值为0 • 为此令 • 需在训练集和测试集上做

  16. 课堂测试(4) • 如何进行合理的特征归一化?

  17. 过拟合/欠拟合 • 模型 • 太复杂,参数太多 • 特征线性相关 • 训练集中 • 训练样本数过少 房产估值中,如果特征包括(面积,客厅面积,厨房面积,卧室面积阳台面积,楼层,朝向,装修,年代等) Low bias,High variance Low bias,Low variance Low bias,Low variance High bias,Low variance

  18. 模型选择(1) • 理想的假设:低偏差,低方差 • 真实误差与训练误差:交叉验证

  19. 课堂测试(5) • 关于训练误差及交叉验证误差,下面4个图,哪幅是对的,为什么? 模型复杂度 模型复杂度 模型复杂度 模型复杂度

  20. 在bias与variance中平衡

  21. 正则化Regularization

  22. 课堂测试(6) • 正则项的\lambda设置的很大时,以下哪些说法是对的 • 可能造成过拟合 • 模型参数\theta越小 • 梯度下降算法不能收敛

  23. 模型选择(2) • 也可以采用正则项的方法防止过拟合 • 正则项系数\lambda的选择 • 同样采用交叉验证尝试 • 注意这里模型的复杂度可以设置高一些

  24. 课堂测试(7) • 下面4副图反映Bias/variance曲线随着正则项系数的变化情况,其中哪些是正确的? \lambda \lambda \lambda \lambda

  25. 训练集/特征集大小的影响 • 需要分是否过拟合 • 过拟合 • 增加训练集有用 • 减少特征可以看作降低模型复杂度 • 欠拟合 • 增加训练集没有用 • 增加特征可以看作提高模型复杂度

  26. 调整模型

  27. 广义线性回归 • 我们通常使用线性形式的模型,因为 • 模型计算简单 • 易于解释 • 是对真实模型的近似,尽管真实的模型极可能不是线性的 • 广义线性回归 什么时候特别需要考虑引入基函数?

  28. 几种常见的基函数 • 多元回归: • 多项式: • 多项式: • 全局性: • 分段函数 • 其他非线性函数

  29. 总结:如何设计一个学习机器 • 明确目标函数 • 模型/假设目标函数的确切形式 • 选择损失函数 • 优化模型参数 • 模型选择 • 评估

More Related