490 likes | 727 Views
线性回归中的模型选择. 多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的? 否 因为: 预测准确性: 当回归模型中变量增多时,预测的偏差的低但方差高(过拟合) 可解释性 :当回归模型中的预测子数目很多时,模型很难解释 希望找到效果更明显的少数预测子. 模型选择. 模型选择 模型评估:用一些指标来衡量每个模型 解析计算: AIC/BIC/MDL 模拟计算:交叉验证 /bootstap 模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型 模型空间不大:穷举搜索 否则:贪心搜索 前向 / 后向 / 双向逐步
E N D
线性回归中的模型选择 • 多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的? • 否 • 因为: • 预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合) • 可解释性:当回归模型中的预测子数目很多时,模型很难解释 • 希望找到效果更明显的少数预测子
模型选择 • 模型选择 • 模型评估:用一些指标来衡量每个模型 • 解析计算:AIC/BIC/MDL • 模拟计算:交叉验证/bootstap • 模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型 • 模型空间不大:穷举搜索 • 否则:贪心搜索 • 前向/后向/双向逐步 • 上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法 • 岭回归 • Lasso
假定 不依赖于x: 其中 模型类型:参数模型 损失:平方误差损失 参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,= 极大似然) 计算:矩阵求逆/QR分解 模型选择:AIC/BIC 回顾:线性回归模型
回顾:线性回归模型 • 最小二乘参数估计的结果: • 点估计: • 偏差: • 方差: • 的无偏估计为:
回顾:线性回归模型 • 预测结果: • 点估计: • 偏差: • 方差 • 其中 是固有的,与参数的估计 无关。对不同的估计 ,得到的预测的方差不同( 不同)
子集选择 • 只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0) • 当p较小时,可穷尽搜索最佳子集 • 对每个 ,其中p为变量的总数目,找出容量为k的子集,计算每个模型的得分(AIC/BIC) • 具体算法参考 Furnival&Wilson 1974 • 容量较大的最佳子集不必包含容量较小的最佳子集
AIC:Akaike Information Criterion • AIC为模型M测试误差的一个估计: • 其中 为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目 • 我们选择测试误差 最小的模型,等价于选择下述表达式最大的模型 训练集上的拟合度 模型复杂度 Akaike, Hirotugu (December 1974). "A new look at the statistical model identification". IEEE Transactions on Automatic Control 19 (6):
AIC:Akaike Information Criterion • 当假设高斯噪声时, • 这样导出AIC另一种表示: • 其中 为从一个低偏差估计的MSE估计 • 低偏差估计:复杂模型,即包括所有特征的模型
BIC :Bayesian Information Criterion • 类似AIC,可用于极大对数似然实现的拟合中 • 所以 • 最小化BIC,等价于最大化 • 最小描述长度(MDL)的结论同BIC Schwarz, G. 1978. Estimating the dimension of a model. Annals of Statistics, 6, 461-464.
前向逐步回归 • 从截距开始,每次增加一个特征 • 计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为: • 选择AIC最小的模型 • 直到AIC不再变小
后向逐步回归 • 从包含所有特征的模型开始,每次去掉一个特征 • 计算去掉特征后每个模型的AIC • 选择AIC最小的模型 • 直到AIC不再变小
例:前列腺癌—后向逐步回归 • 所有变量都用:k = 8 • 去掉一个变量, k = 7,去掉变量后的AIC分别为 • 去掉最小AIC对应的特征,即去掉gleason
例:前列腺癌—后向逐步回归(续) • 最小AIC为72.0215,再继续去掉一个变量:k = 6 • 此时最小的AIC( 72.1945 )也比72.0215大, • 不过也没比72.0215大多少 • 所以根据AIC准则,用后向逐步回归最后选择的模型为k=7
例:前列腺癌—后向逐步回归(续) • 如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删除的特征及其对应的AIC分别为 • k=7, 删除gleason, AIC= 72.0215 • k=6, 删除age, AIC= 72.1945 • k=5, 删除lcp, AIC= 73.2095 • k=4, 删除pgg45, AIC= 72.6790 • k=3, 删除lbph, AIC= 74.8309 • k=2, 删除svi, AIC= 77.1088 • k=1, 删除lweight, AIC= 89.7667 • k=0, 删除lcavol, AIC= 189.7727
例:前列腺癌—后向逐步回归(续) • :模型与训练集的拟合程度 • 模型越复杂,与训练数据拟合得越好,但可能过拟合 • AIC:测试误差的估计,与训练集的拟合程度和模型复杂度都有关
例:前列腺癌—前向逐步回归 • 不用任何变量:k = 0 • 增加一个变量, k = 1,增加变量后的AIC分别为 • 增加最小AIC对应的特征,即lcavol
例:前列腺癌—前向逐步回归(续) • 最小AIC为89.2667,再继续增加一个变量:k =2 • 增加最小AIC对应的特征,即lweight • 再继续增加一个变量:k =3 • 增加最小AIC对应的特征,即svi
例:前列腺癌—前向逐步回归(续) • 最小AIC为74.8039,再继续增加一个变量:k =4 • 增加最小AIC对应的特征,即lbph • 再继续增加一个变量:k =5 • 此时AIC不再变小,最终选择的模型为k=4
测试误差的模拟计算 • 模型评估与选择: • 1、选择模型调整参数的值 • 2、估计给定模型的预测性能 • 最好有一个独立的测试集 • 对1,校验集 • 对2,测试集 • 但通常没有足够多的数据来构造校验集/测试集,在这种情况下,我们通过重采样技术来模拟校验集。 • 交叉验证和bootstrap是重采样技术的两个代表
K-折交叉验证 • 用于估计模型的调整参数 (如子集的容量k) • 思想与jackknife类似 • 将数据分成容量大致相等的K份(通常K=5/10)
K-折交叉验证 • 对每个 ,取调整参数为 ,每次留出第k份数据,其余K-1份数据用于训练,得到参数的估计 ,并计算第k份数据的预测误差: • 交叉验证的误差为 • 对多个不同的 ,计算其对应的误差 ,最佳模型为 最小的模型。
K-折交叉验证 • 在子集选择的例子中, 为子集的容量 • 为子集容量为 的最佳子集的系数(训练数据为除了第k份数据的其他K-1份数据) • 为该最佳子集的测试误差的一个估计 • K-折交叉验证的测试误差的估计为
例:前列腺癌—交叉验证 • 10折交叉验证,K=10 • 训练集:67个数据点 • 校验集:每次从67个训练数据中留出7个数据点(10-折) • 最佳模型:测试误差在最小测试 误差的一倍以内的最简单模型 最佳模型 最小测试误差 最佳测试误差+1倍方差
回顾:线性回归模型 • 预测结果: • 点估计: • 偏差: • 方差: • 在所有的无偏估计中,最小二乘估计的方差最小 • 但可能存在有偏估计,其MSE比最小二乘估计的MSE小
现在考虑我们要最小化一个修正的函数: 由原来RSS加上一项惩罚权向量大小的项, 是一个复杂度参数,控制收缩量/正则量 等价于: 其中s取代了 的功能 解为: 仍然是y的线性组合 如果输入时正交的: 岭回归(Ridge Regression)
当矩阵 奇异时,最小二乘的结果变得很坏 当自变量系统中存在多重相关性时,它们的系数确定性变差,这种不确定性增加了方差(如一个大的权重可以被一个相关的特征上的负权重平衡) 当矩阵A奇异时,一些特征值 ,从而使得 很大,表示 与β之间的偏差很大。同时 也很大,表示结果不稳定 岭回归在矩阵 求逆之前,将一个正的常数加到A的对角线上,使得问题非奇异 岭回归:为什么? ,其中 为矩阵 的特征值
从贝叶斯的观点:正则项可视为参数的先验 如果假设 ,并且每个 都符合先验分布 ,岭回归也可以被看作是从后验分布得到的。那么 的负log后验密度就是 ,其中 岭回归:为什么?
奇异值分解 (SVD) • U的列生成X的列空间,V的列生成X的行空间 • 用SVD的形式分解: y 相对 U 基的坐标 越小的基,收缩得越多 y 相对 U 基的收缩坐标 越小的基,收缩得越多 模型的复杂度参数(有效自由度):
与主成分的关系 • 用SVD的形式: • 特征向量 为 X 的主成分方向 特征值分解 归一化的主成分 主成分 X 列向量的线性组合 较小的值对应有较小方差的X的列空间方向,收缩最多 岭回归假设在高方差的输入方向上,响应会变化大,因此避免小方差的X上的Y的大的变化
与主成分的关系 • X的SVD分解: • 所以 • X进行SVD分解后,对所有的λ都可利用
最佳模型 最佳测试误差 最佳测试误差+1倍方差 例:前列腺癌——岭回归
Lasso • 类似岭回归,最小化 • 等价于 • 将岭回归中的惩罚项 用 代替 • 使得解为y的非线性组合,计算时用二次规划算法 • 如果t选择为足够小,会使得一些系数等于0。 选择最小期望测试误差的t
例:前列腺癌——Lasso 最佳模型 最佳测试误差 最佳测试误差+1倍方差
例:前列腺癌——Lasso Lasso会使某些系数=0 而岭回归不会
收缩估计族 • 考虑标准 • 不同q对应的 的轮廓线为 • 在贝叶斯框架下, 可视为 的负的log先验
收缩估计族 • 在贝叶斯框架下,Lasso、岭回归和最佳子集选择表现为选择的先验分布不同 • 估计的结果都为贝叶斯估计:众数(最大后验) • 岭回归同时也是后验均值(高斯分布的众数也是均值)
下节课内容 • 概率密度估计 • [Wasserman] Chp19
Regularization • Regularization: add model complexity penalty to training error. • for some constant C • Now • Regularization forces weights to be small, but does it force weights to be exactly zero? • is equivalent to removing feature f from the model
L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms
L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms
L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms
L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms • w is forced into the corners—many components 0 • Solution is sparse
L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms
L1 vs L2 regularization • To minimize , we can solve by (e.g.) gradient descent. • Minimization is a tug-of-war between the two terms • L2 regularization does not promote sparsity • Even without sparsity, regularization promotes generalization—limits expressiveness of model
Lasso Regression [Tibshirani ‘94] • Simply linear regression with an L1 penalty for sparsity. • Two big questions: • 1. How do we perform this minimization? • With L2 penalty it’s easy—saw this in a previous lecture • With L1 it’s not a least-squares problem any more • 2. How do we choose C?
Least-Angle Regression • Up until a few years ago this was not trivial • Fitting model: optimization problem, harder than least-squares • Cross validation to choose C: must fit model for every candidate C value • Not with LARS! (Least Angle Regression, Hastie et al, 2004) • Find trajectory of w for all possible C values simultaneously, as efficiently as least-squares • Can choose exactly how many features are wanted Figure taken from Hastie et al (2004)