选择假设集 的策略

  • 方法1: 選擇一個非常複雜的家族
    • 可以使近似误差不存在或非常小。
    • 然而,這可能導致泛化界限无法适用于
  • 方法2: 逐渐增加假设集的复杂性
    • 分解为逐渐复杂化的假设集的并集,即
    • 其中的复杂性随增加,对于某些集合

图 4.2 描述一个丰富家族的分解的图示。 01924b36-62e2-7d6a-9feb-ac32232c9804_2_459_241_889_537_0.jpg

  • 选择参数
    • 来决定应该选择哪个假设集
    • 目的是在估计误差和近似误差之间找到最有利的权衡。
  • 过量误差 (excess error) (也称为过量风险 (excess risk))
    • 可以对其和,即,使用统一的上限。

图4.3 选择具有最有利估计误差和近似误差权衡的 01924b36-62e2-7d6a-9feb-ac32232c9804_3_551_256_715_529_0.jpg

结构风险最小化 (SRM) 方法

  • 假设集 的分解
    • 可以将假设集 分解为可数集。
    • 例如,
  • 嵌套假设集
    • 假设集 被假设为嵌套的:对于所有
    • 然而,这些结果也适用于非嵌套的假设集。
  • SRM 流程
    • 选择索引 和 ERM 假设 中,以最小化过量误差的上界。

如我们将看到的,以下学习界对所有 都成立:

  • 对于任何
  • 在从 中抽取大小为 的样本 的概率至少为 的情况下,
  • 对于所有

因此,为了最小化由此产生的过量误差 的上界,指标 和假设 应该被选择来最小化以下目标函数

这正是 SRM 解 的定义:

结构风险最小化 (SRM) 方法

  • 确定最优索引
    • SRM 确定了一个最优索引
    • 这意味着也确定了假设集
  • 返回 ERM 解
    • 基于选定的假设集 ,SRM 返回 ERM 解。
  • SRM 通过最小化训练误差和惩罚项 之和的上界,进一步说明了对索引 和假设集 的选择。
  • 对于任何 ,我们将用 表示包含 中最简单的假设集。
  • 任何 ,SRM 解都比 ERM 解在过量误差方面好。

图4.4 结构风险最小化的图示。 显示了三个误差随索引变化的曲线。 显然,随着的增加,或者说假设集的复杂度增加,训练误差减小,而惩罚项增加。 SRM 选择使泛化误差上界最小的假设,该上界是经验误差和惩罚项的和。 01924b36-62e2-7d6a-9feb-ac32232c9804_4_567_253_672_497_0.jpg

定理4.2 SRM学习保证

  • 对于任意的
    • 中抽取大小为 的 i.i.d. 样本
  • 至少为 的概率下,
    • SRM方法返回的假设 的泛化误差有如下界限:

\begin{proof} 首先观察到,由联合界可知,以下不等式成立:

接下来,对于任意两个随机变量 , 如果, 那么 必须大于。 基于这一点,由联合界可知, 使用这个不等式、不等式(4.5)以及对于所有都成立的不等式 根据 的定义,我们可以写出,对于任意

将右侧设置为等于,完成证明。 \end{proof}

刚才证明的SRM学习保证是引人注目的。

  • 为了简化讨论,假设存在 使得
    • 即存在一个最佳分类器
  • 那么,定理特别暗示,
    • 在至少为 的概率下,
    • 以下不等式对于所有 都成立:
  • 注意到,值得注意的是,这个界限与 的估计误差界限相似:
    • 它仅与项 不同。
  • 因此,除了该项之外,SRM 的保证与如果我们有一个告知我们最佳分类器的假设集索引 的预言者所获得的保证一样有利。

此外,观察到

  • 足够丰富
    • 以至于接近贝叶斯误差时,
  • 学习界限(4.6)大致上是SRM解的过量误差的界限。
  • 注意,如果对于某些 ,ERM解的实证误差为零,
    • 特别是当包含贝叶斯误差时,
    • 那么,对于所有我们有
    • 并且只需要在SRM中考虑有限多个指标。

更一般地假设,

  • 如果 对于某些 成立,那么无需检查 以外的指标。
    • 例如,如果在某个指标 之后实证误差不能再进一步改善,那么这个性质可能成立。
  • 在这种情况下,可以通过在区间中进行二分搜索来确定最小化指标,给定某个最大值
  • ,该最大值本身可以通过检查 对于指数增长的指标 , ,并设置 对于 使得 来找到。
  • 找到 需要的ERM计算次数在 之内,同样,由于二分搜索导致的ERM计算次数在 之内。因此,如果 是使得 成立的最小整数,那么总的ERM计算次数在 之内。

结构风险最小化 (SRM) 方法的缺点

  • 缺乏灵活性
    • SRM 依赖于 可分解为可数多个假设集,每个假设集的 Rademacher 复杂度都收敛。
    • 这仍然是一个很强的假设。
    • 例如,所有可测函数的族不能写成有限 VC维的可数多个假设集的并集。
  • 需要选择
    • 选择 或假设集 是 SRM 的关键组成部分。
    • 这需要对问题和数据进行详细了解。
  • 计算成本高昂
    • SRM 的主要缺点是计算成本高昂:
      • 对于大多数假设集,找到 ERM 的解是 NP 困难的。
      • 通常,SRM 需要确定大量指标 的解。
      • 这使得 SRM 不适合大规模数据或复杂问题。
  • 处理挑战
    • SRM 仍然存在处理挑战的问题:
      • 可能需要人工调整参数和超参数。
      • 需要仔细选择假设集 以确保收敛和性能。