定理 2.5 (学习界限 — 有限一致情况)

  • 为从 的函数的有限集合
  • 为一个算法:
    • 对于任何
      • 目标概念
      • 独立同分布样本
    • 它返回一个一致假设

那么,对于任何 ,如果

我们有

等价描述

样本复杂性结果允许以下等价陈述作为一般化界限:对于任何 ,以至少 的概率,

\begin{proof}

  • 固定
  • 我们不知道算法 选择了哪个一致假设
    • 这个假设依赖于训练样本
  • 我们需要给出一个统一的收敛界限,即对所有一致假设集都成立的界限,这自然包含
  • 我们将界定某些 的一致性概率及其误差超过 的可能性。

  • 对于任意
  • 通过 定义
  • 王剑每曰观察在从 中独立同分布地抽取的训练样本上, 一个假设 中的一致性可以被如下界定:

因此,根据并集界定,以下成立:

将右侧设置为等于 并求解 ,证明结束。 \end{proof}


样本大小对学习界的影响

定理表明,

  • 当假设集 是有限的时候,
  • 一个一致算法 是一个PAC学习算法,
    • 因为由 (2.8) 给出的样本复杂度被 的多项式主导。

(2.9) 所示,一致假设的泛化误差被一个随样本大小 减小的项界定。

这是一个普遍的事实:

  • 如预期的那样,学习算法从更大的标记训练样本中获益。
  • 然而,本定理保证的 的减少率特别有利。

代价

为提出一个一致算法所付出的代价是

  • 使用一个包含目标概念的更大假设集
  • 上界 (2.9) 随着 的增加而增加。
    • 然而,这种依赖关系是对数级别的。
    • 可以解释为表示 所需的位数。
  • 因此,定理的泛化保证由这个位数 与样本大小 的比例控制。