1 / 82

今天内容: 模型选择

今天内容: 模型选择. Occam's razor 测试误差 / 训练误差 训练误差的乐观性估计 Mallows C p 统计量 AIC BIC/MDL SRM 直接估计测试误差 交叉验证 Bootstrap. “模型”. 我们说的“模型”有时指的是模型类别 ,例如所有 2 个高斯的混合模型和所有 3 个高斯的混合模型。 有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。 在实际应用中,我们通常同时考虑上述两种情况,也就是说:

Télécharger la présentation

今天内容: 模型选择

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 今天内容:模型选择 • Occam's razor • 测试误差/训练误差 • 训练误差的乐观性估计 • Mallows Cp 统计量 • AIC • BIC/MDL • SRM • 直接估计测试误差 • 交叉验证 • Bootstrap

  2. “模型” • 我们说的“模型”有时指的是模型类别 ,例如所有2个高斯的混合模型和所有3个高斯的混合模型。 • 有时也指在一个类别的模型中的一员,如参数 的值为特定值。也就是说,模型的类别是固定的,而考虑的是不同的参数值。 • 在实际应用中,我们通常同时考虑上述两种情况,也就是说: • 参数 的选择统计决策理论部分已经讨论,在此主要讨论不同函数族的选择

  3. Occam's razor Occam's razor: Entia non sunt multiplicanda praeter necessitatem Or: Entities should not be multiplied unnecessarily —— the explanation of any phenomenon should make as few assumptions as possible, eliminating, or "shaving off", those that make no difference in the observable predictions of the explanatory hypothesis or theory. William of Occham (1285–1348) from wikipedia

  4. Occam's razor • 例:树后面有多少个盒子? √

  5. 模型选择 • 训练数据 • 既包含输入—输出之间的规律 • 也包含噪声 • 模型匹配时会匹配上述两种情况 • 如果模型太复杂,会将噪声也包含在模型中 • 所以,好的模型 • 足够对输入—输出之间的规律建模 • 不够对噪声建模(假设噪声较弱)

  6. 一个回归的例子 样本数n = 10 用M阶多项式拟合:

  7. 一个回归的例子(2) 0阶多项式拟合

  8. 一个回归的例子(3) 1阶多项式拟合

  9. 一个回归的例子(4) 3阶多项式拟合

  10. 一个回归的例子(5) 9阶多项式拟合

  11. 一个回归的例子(6) • 过拟合:

  12. 一个回归的例子(7) • 回归系数:

  13. 一个回归的例子(8) 9阶多项式拟合,训练样本数n=15

  14. 一个回归的例子(9) 9阶多项式拟合,训练样本数n=100

  15. 一个回归的例子(10) 岭回归:最小化

  16. 一个回归的例子(11) 岭回归

  17. 一个回归的例子(12) 岭回归

  18. 一个回归的例子(13) • 岭回归系数

  19. 目标 • 模型选择:估计不同模型的性能,选出最好的模型 • 模型评估:已经选定最终的模型,估计它在新数据上的预测误差(泛化误差) • 提升模型的性能:模型平均 • Bagging • Boost • … 教材第8章

  20. 模型选择和模型评估 • 当样本足够多时,可以将数据分成三份 • 训练集:估计模型的参数 • 校验集:估计模型的预测误差 • 测试集:计算最终选定的模型的泛化误差 • 但通常没有足够多样本,而且也很难说明多少足够数据是足够的 • 依赖于基础数据的信噪比和模型的复杂程度

  21. 模型选择 目标:选择使测试误差最小的模型M,称为模型选择。

  22. 训练误差与测试误差 • 测试误差,亦称泛化误差(generalization error ),是在与训练数据同分布的独立测试样本上的风险(平均损失): • 亦称期望风险 • 训练误差是在训练样本上的平均损失: • 亦称经验风险

  23. 训练误差与测试误差 • 目标是选择测试误差最小的模型 • 但测试误差很难计算/估计 • 用训练误差估计 • 但训练误差是测试误差的欠估计 • 在选择合适复杂性的模型时,存在偏差-方差的平衡 训练误差的乐观性

  24. 训练误差与测试误差 • 经验风险/训练误差是否是期望风险/测试误差的一个好的估计? • 随样本集容量n→∞渐进成立 • 在小样本条件下,并不是一个好的估计 • 训练误差是测试误差的欠估计(有偏估计) 训练误差的乐观性

  25. 训练误差的乐观性 • 通常我们有 • 因此,为了选择模型,我们可以 • 对 进行估计,或 • 以某种方式估计R(M) 欠拟合程度 + 复杂性惩罚

  26. 训练误差的乐观性 • 估计预测误差的方法 • 估计乐观性,然后与训练误差 相加 • AIC/BIC/MDL等(模型与参数为线性关系时) • SRM • 直接估计测试误差 • 交叉验证/bootstrap • 对任意损失函数、非线性自适应拟合技术都适用

  27. 估计乐观性 • 通过各种技巧(通常是渐近性)估计乐观性

  28. Mallows Cp统计量 • 统计量: 使用所有特征的模型

  29. AIC:Akaike Information Criterion • 当采用log似然作为损失函数,测试误差为 • 其中 为MLE,模型为 ,似然函数为 • 则训练误差为 • 其中 为在训练集上的log似然。 i为测试集上数据索引

  30. AIC:Akaike Information Criterion • 当 时, • 其中 • 这导出R(M)的一个估计: AIC • 其中 为从一个低偏差(复杂的)估计的MSE获得。 (高斯模型时,对数似然与平方误差损失一致)

  31. BIC :Bayesian Information Criterion • 类似AIC,可用于极大化对数似然实现的拟合中 • 其中 • 所以 同AIC

  32. BIC: Motivation • 用贝叶斯方法选择模型

  33. s q 回顾贝叶斯方法 • 为书写简单,记训练数据为 • 假设已知模型 的 的形式,参数 的贝叶斯估计为(见参数估计部分) • 定义模型参数的先验分布: • 和模型似然: • 当有数据Z到达后,参数的分布(后验分布)变得更确定

  34. 贝叶斯方法与模型选择 • 给定一些列侯选模型,并且模型参数为 • 某个给定的模型的后验概率为: • 表示模型的先验 • 表示证据(参数估计中的归一化因子) • 为了比较两个模型,可以比较后验比: • 如果比值 > 1,则选择第1个模型。

  35. 贝叶斯方法与模型选择 • 其中先验比 • 可以根据美学原理或经验确定:如简单的模型先验更高 • 但先验比不是必须的,即使假设模型的先验是均匀的,即先验比为常数,贝叶斯规则也倾向于选择能解释数据的最简单模型:Occam剃刀原理。 • Bayes因子 表示数据Z对后验比值的贡献(证据) • 根据证据对模型排序

  36. 例: Occam剃刀原理 • 简单模型 只对有限范围内做预测 • 复杂模型 (如有更多自由参数)能对更宽范围做预测 • 但对区域 中的数据, 的预测不如 强

  37. 证据 • 证据(evidence) • 通常会在最可能的参数 附近有一个很强的峰。 • 以一维参数为例:利用Laplace方法近似,即用被积函数 乘以其宽度

  38. Occam因子(参数为多维情况) • 其中

  39. BIC :Bayesian Information Criterion • 当模型为线性模型时用Laplace近似 • 其中 为极大似然估计, 为模型中自由参数的数目 • 当损失函数取 ,导出贝叶斯信息准则:

  40. BIC • AIC不是一致的,而BIC是一致的。也就是说,选择最小BIC的模型等价于选择最大后验概率的模型(在渐近意义下)。事实上,模型的后验概率为 • 不仅可以估计最好的模型,而且可以评估所考虑模型的相关指标。 • 但:假设候选模型包含正确的模型 • “Essentially, all models are wrong, but some are useful” G.Box (1987)

  41. 最小描述长度MDL • 最小描述长度MDL(minimum description length)采用与BIC完全相同的选择准则,但它源自数据压缩/最优编码 • BIC与MDL都只适用于似然损失。 Rissanen, J. 1978. Modeling by shortest data description. Automatica, 14, 465-471.

  42. MDL • 可译变长编码:越频繁的信息码长越短 • 平均信息长度越短 • 消息的长度 与事件zi的概率 之间的关系为: • 为了传递具有概率密度为 的随机变量zi ,需要大约 位 • 平均信息长度 熵:消息长度的下界

  43. MDL • 假设我们有以θ为参数的模型M,和包含输入输出数据Z=(X,y),则传递输出的消息长度为: • 选择最小长度的模型等价于选择最大后验概率的模型,同BIC 用于传递模型与目标差别所需要的平均消息长度 传递模型参数所需的平均消息长度

  44. AICvs. BIC • AIC: • 选择使 最小的模型,也是使 最大的模型,其中 为log似然函数, 表示模型中有效参数的数目 • 极大似然,同时模型复杂度极小 • BIC: • 用贝叶斯方法选择模型 • 选择最大后验概率的模型

  45. AICvs. BIC • 均使用模型参数数目来度量复杂度 • 对复杂度的惩罚参数的选择不同 • BIC:渐近相容 • 样本容量n→∞时,选择正确模型的概率→1 • 有限样本情况下,当取高斯噪声时, • ,BIC中因子2被logn代替,对复杂性施加更严厉的惩罚,倾向于选择简单模型,AIC倾向于选择复杂模型

  46. 有效参数数目 • AIC/BIC中参数的数目可以扩展到使用正则化拟合的模型 • 对线性拟合 • 其中 为 的矩阵,只依赖于输入向量 ,与 无关 • 则有效参数的数目为 • 如对岭回归 • 则有效参数数目为

  47. VC维(Vapnik-Chernovenkis Dimension) • 之前的乐观性估计都适用于简单模型和基于似然函数的。VC理论给出了模型复杂性更一般的度量 • 函数类 的VC维 • 可被函数集成员打散(shatter)的点的最大数目 • 打散 • 不管怎样改变每个点的位置和标记,某个类别的函数中的一员都能完全分开这些点,则称为这些点能被该类别的函数打散。

  48. VC维 2D线性函数的VC维为3,等于参数的个数 正弦函数的VC维:无穷,但参数只有一个:频率

  49. VC维 • 如线性函数能打散2D平面上任意3点,因此线性函数的VC维是3。通常D维线性函数的VC维是D + 1,也就是自由参数的数目。 • 一个非线性的函数族的VC维可能无穷大,因为通过选择合适的参数θ,任何点的集合都能被该类的函数打散。 • 实值函数类 的VC维定义指示函数类 的VC维,其中β在 f的值域上取值。

  50. VC维 • 函数集的VC维不一定等于自由参数的个数 • 可为等于、大于或小于 • 尚无一般方法对任意函数集计算VC维,只有一些函数集合的VC维可计算 • 线性函数 • 多项式 • 三角函数等

More Related