1 / 49

线性回归中的模型选择

线性回归中的模型选择. 多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的? 否 因为: 预测准确性: 当回归模型中变量增多时,预测的偏差的低但方差高(过拟合) 可解释性 :当回归模型中的预测子数目很多时,模型很难解释 希望找到效果更明显的少数预测子. 模型选择. 模型选择 模型评估:用一些指标来衡量每个模型 解析计算: AIC/BIC/MDL 模拟计算:交叉验证 /bootstap 模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型 模型空间不大:穷举搜索 否则:贪心搜索 前向 / 后向 / 双向逐步

ting
Download Presentation

线性回归中的模型选择

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 线性回归中的模型选择 • 多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的? • 否 • 因为: • 预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合) • 可解释性:当回归模型中的预测子数目很多时,模型很难解释 • 希望找到效果更明显的少数预测子

  2. 模型选择 • 模型选择 • 模型评估:用一些指标来衡量每个模型 • 解析计算:AIC/BIC/MDL • 模拟计算:交叉验证/bootstap • 模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型 • 模型空间不大:穷举搜索 • 否则:贪心搜索 • 前向/后向/双向逐步 • 上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法 • 岭回归 • Lasso

  3. 假定 不依赖于x: 其中 模型类型:参数模型 损失:平方误差损失 参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,= 极大似然) 计算:矩阵求逆/QR分解 模型选择:AIC/BIC 回顾:线性回归模型

  4. 回顾:线性回归模型 • 最小二乘参数估计的结果: • 点估计: • 偏差: • 方差: • 的无偏估计为:

  5. 回顾:线性回归模型 • 预测结果: • 点估计: • 偏差: • 方差 • 其中 是固有的,与参数的估计 无关。对不同的估计 ,得到的预测的方差不同( 不同)

  6. 子集选择 • 只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0) • 当p较小时,可穷尽搜索最佳子集 • 对每个 ,其中p为变量的总数目,找出容量为k的子集,计算每个模型的得分(AIC/BIC) • 具体算法参考 Furnival&Wilson 1974 • 容量较大的最佳子集不必包含容量较小的最佳子集

  7. AIC:Akaike Information Criterion • AIC为模型M测试误差的一个估计: • 其中 为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目 • 我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型 训练集上的拟合度 模型复杂度 Akaike, Hirotugu (December 1974). "A new look at the statistical model identification". IEEE Transactions on Automatic Control 19 (6):

  8. AIC:Akaike Information Criterion • 当假设高斯噪声时, • 这样导出AIC另一种表示: • 其中 为从一个低偏差估计的MSE估计 • 低偏差估计:复杂模型,即包括所有特征的模型

  9. BIC :Bayesian Information Criterion • 类似AIC,可用于极大对数似然实现的拟合中 • 所以 • 最小化BIC,等价于最大化 • 最小描述长度(MDL)的结论同BIC Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.

  10. 前向逐步回归 • 从截距开始,每次增加一个特征 • 计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为: • 选择AIC最小的模型 • 直到AIC不再变小

  11. 后向逐步回归 • 从包含所有特征的模型开始,每次去掉一个特征 • 计算去掉特征后每个模型的AIC • 选择AIC最小的模型 • 直到AIC不再变小

  12. 例:前列腺癌—后向逐步回归 • 所有变量都用:k = 8 • 去掉一个变量, k = 7,去掉变量后的AIC分别为 • 去掉最小AIC对应的特征,即去掉gleason

  13. 例:前列腺癌—后向逐步回归(续) • 最小AIC为72.0215,再继续去掉一个变量:k = 6 • 此时最小的AIC( 72.1945 )也比72.0215大, • 不过也没比72.0215大多少 • 所以根据AIC准则,用后向逐步回归最后选择的模型为k=7

  14. 例:前列腺癌—后向逐步回归(续) • 如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的AIC分别为 • k=7, 删除gleason, AIC= 72.0215 • k=6, 删除age, AIC= 72.1945 • k=5, 删除lcp, AIC= 73.2095 • k=4, 删除pgg45, AIC= 72.6790 • k=3, 删除lbph, AIC= 74.8309 • k=2, 删除svi, AIC= 77.1088 • k=1, 删除lweight, AIC= 89.7667 • k=0, 删除lcavol, AIC= 189.7727

  15. 例:前列腺癌—后向逐步回归(续) • :模型与训练集的拟合程度 • 模型越复杂,与训练数据拟合得越好,但可能过拟合 • AIC:测试误差的估计,与训练集的拟合程度和模型复杂度都有关

  16. 例:前列腺癌—前向逐步回归 • 不用任何变量:k = 0 • 增加一个变量, k = 1,增加变量后的AIC分别为 • 增加最小AIC对应的特征,即lcavol

  17. 例:前列腺癌—前向逐步回归(续) • 最小AIC为89.2667,再继续增加一个变量:k =2 • 增加最小AIC对应的特征,即lweight • 再继续增加一个变量:k =3 • 增加最小AIC对应的特征,即svi

  18. 例:前列腺癌—前向逐步回归(续) • 最小AIC为74.8039,再继续增加一个变量:k =4 • 增加最小AIC对应的特征,即lbph • 再继续增加一个变量:k =5 • 此时AIC不再变小,最终选择的模型为k=4

  19. 测试误差的模拟计算 • 模型评估与选择: • 1、选择模型调整参数的值 • 2、估计给定模型的预测性能 • 最好有一个独立的测试集 • 对1,校验集 • 对2,测试集 • 但通常没有足够多的数据来构造校验集/测试集,在这种情况下,我们通过重采样技术来模拟校验集。 • 交叉验证和bootstrap是重采样技术的两个代表

  20. K-折交叉验证 • 用于估计模型的调整参数 (如子集的容量k) • 思想与jackknife类似 • 将数据分成容量大致相等的K份(通常K=5/10)

  21. K-折交叉验证 • 对每个 ,取调整参数为 ,每次留出第k份数据,其余K-1份数据用于训练,得到参数的估计 ,并计算第k份数据的预测误差: • 交叉验证的误差为 • 对多个不同的 ,计算其对应的误差 ,最佳模型为 最小的模型。

  22. K-折交叉验证 • 在子集选择的例子中, 为子集的容量 • 为子集容量为 的最佳子集的系数(训练数据为除了第k份数据的其他K-1份数据) • 为该最佳子集的测试误差的一个估计 • K-折交叉验证的测试误差的估计为

  23. 例:前列腺癌—交叉验证 • 10折交叉验证,K=10 • 训练集:67个数据点 • 校验集:每次从67个训练数据中留出7个数据点(10-折) • 最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型 最佳模型 最小测试误差 最佳测试误差+1倍方差

  24. 回顾:线性回归模型 • 预测结果: • 点估计: • 偏差: • 方差: • 在所有的无偏估计中,最小二乘估计的方差最小 • 但可能存在有偏估计,其MSE比最小二乘估计的MSE小

  25. 现在考虑我们要最小化一个修正的函数: 由原来RSS加上一项惩罚权向量大小的项, 是一个复杂度参数,控制收缩量/正则量 等价于: 其中s取代了 的功能 解为: 仍然是y的线性组合 如果输入时正交的: 岭回归(Ridge Regression)

  26. 当矩阵 奇异时,最小二乘的结果变得很坏 当自变量系统中存在多重相关性时,它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡) 当矩阵A奇异时,一些特征值 ,从而使得 很大,表示 与β之间的偏差很大。同时 也很大,表示结果不稳定 岭回归在矩阵 求逆之前,将一个正的常数加到A的对角线上,使得问题非奇异 岭回归:为什么? ,其中 为矩阵 的特征值

  27. 从贝叶斯的观点:正则项可视为参数的先验 如果假设 ,并且每个 都符合先验分布 ,岭回归也可以被看作是从后验分布得到的。那么 的负log后验密度就是 ,其中 岭回归:为什么?

  28. 奇异值分解 (SVD) • U的列生成X的列空间,V的列生成X的行空间 • 用SVD的形式分解: y 相对 U 基的坐标 越小的基,收缩得越多 y 相对 U 基的收缩坐标 越小的基,收缩得越多 模型的复杂度参数(有效自由度):

  29. 与主成分的关系 • 用SVD的形式: • 特征向量 为 X 的主成分方向 特征值分解 归一化的主成分 主成分 X 列向量的线性组合 较小的值对应有较小方差的X的列空间方向,收缩最多 岭回归假设在高方差的输入方向上,响应会变化大,因此避免小方差的X上的Y的大的变化

  30. 与主成分的关系 • X的SVD分解: • 所以 • X进行SVD分解后,对所有的λ都可利用

  31. 例:前列腺癌——岭回归

  32. 最佳模型 最佳测试误差 最佳测试误差+1倍方差 例:前列腺癌——岭回归

  33. Lasso • 类似岭回归,最小化 • 等价于 • 将岭回归中的惩罚项 用 代替 • 使得解为y的非线性组合,计算时用二次规划算法 • 如果t选择为足够小,会使得一些系数等于0。 选择最小期望测试误差的t

  34. 例:前列腺癌——Lasso 最佳模型 最佳测试误差 最佳测试误差+1倍方差

  35. 例:前列腺癌——Lasso Lasso会使某些系数=0 而岭回归不会

  36. 例:前列腺癌——不同正则化方法

  37. 收缩估计族 • 考虑标准 • 不同q对应的 的轮廓线为 • 在贝叶斯框架下, 可视为 的负的log先验

  38. 收缩估计族 • 在贝叶斯框架下,Lasso、岭回归和最佳子集选择表现为选择的先验分布不同 • 估计的结果都为贝叶斯估计:众数(最大后验) • 岭回归同时也是后验均值(高斯分布的众数也是均值)

  39. 下节课内容 • 概率密度估计 • [Wasserman] Chp19

  40. Regularization • Regularization: add model complexity penalty to training error. • for some constant C • Now • Regularization forces weights to be small, but does it force weights to be exactly zero? • is equivalent to removing feature f from the model

  41. L1 vs L2 regularization

  42. L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms

  43. L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms

  44. L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms

  45. L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms • w is forced into the corners—many components 0 • Solution is sparse

  46. L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms

  47. L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms • L2 regularization does not promote sparsity • Even without sparsity, regularization promotes generalization—limits expressiveness of model

  48. Lasso Regression [Tibshirani ‘94] • Simply linear regression with an L1 penalty for sparsity. • Two big questions: • 1. How do we perform this minimization? • With L2 penalty it’s easy—saw this in a previous lecture • With L1 it’s not a least-squares problem any more • 2. How do we choose C?

  49. Least-Angle Regression • Up until a few years ago this was not trivial • Fitting model: optimization problem, harder than least-squares • Cross validation to choose C: must fit model for every candidate C value • Not with LARS! (Least Angle Regression, Hastie et al, 2004) • Find trajectory of w for all possible C values simultaneously, as efficiently as least-squares • Can choose exactly how many features are wanted Figure taken from Hastie et al (2004)

More Related