定理 2.5 (学习界限 — 有限一致情况)
设
- 为从 到 的函数的有限集合
- 为一个算法:
- 对于任何
- 目标概念
- 独立同分布样本
- 它返回一个一致假设
那么,对于任何 ,如果
我们有
等价描述
样本复杂性结果允许以下等价陈述作为一般化界限:对于任何 ,以至少 的概率,
\begin{proof}
- 固定 。
- 我们不知道算法 选择了哪个一致假设 。
- 这个假设依赖于训练样本 。
- 我们需要给出一个统一的收敛界限,即对所有一致假设集都成立的界限,这自然包含 。
- 我们将界定某些 的一致性概率及其误差超过 的可能性。
- 对于任意 ,
- 通过 定义 。
- 在从 中独立同分布地抽取的训练样本上, 一个假设 在 中的一致性可以被如下界定:
因此,根据并集界定,以下成立:
将右侧设置为等于 并求解 ,证明结束。
\end{proof}
样本大小对学习界的影响
代价
为提出一个一致算法所付出的代价是
- 使用一个包含目标概念的更大假设集 。
- 上界 (2.9) 随着 的增加而增加。
- 然而,这种依赖关系是对数级别的。
- 可以解释为表示 所需的位数。
- 因此,定理的泛化保证由这个位数 与样本大小 的比例控制。