学习界限 -- H 有限一致情况.sync-conflict-20240913-122712-3GMNY6D

定理 2.5 (学习界限 — $H$ 有限一致情况)

设

$H$ 为从 $X$ 到 $Y$ 的函数的有限集合

$A$ 为一个算法：

对于任何

目标概念 $c \in H$

独立同分布样本 $S$

它返回一个一致假设 $h_{S} : R_{S} (h_{S}) = 0$

那么，对于任何 $ϵ, δ > 0$ ，如果
$m \geq \frac{1}{ϵ} (lo g ∣ H ∣ + lo g \frac{1}{δ}) (2.8)$
我们有
$P_{S \sim D^{m}} [R (h_{S}) \leq ϵ] \geq 1 - δ .$

等价描述

样本复杂性结果允许以下等价陈述作为一般化界限：对于任何 $ϵ, δ > 0$ ，以至少 $1 - δ$ 的概率，
$R (h_{S}) \leq \frac{1}{m} (lo g ∣ H ∣ + lo g \frac{1}{δ}) (2.9)$

\begin{proof}

固定 $ϵ > 0$ 。
我们不知道算法 $A$ 选择了哪个一致假设 $h_{S} \in H$ 。
- 这个假设依赖于训练样本 $S$ 。
我们需要给出一个统一的收敛界限，即对所有一致假设集都成立的界限，这自然包含 $h_{S}$ 。
我们将界定某些 $h \in H$ 的一致性概率及其误差超过 $ϵ$ 的可能性。

对于任意 $ϵ > 0$ ，
通过 $H_{ϵ} = {h \in H : R (h) > ϵ}$ 定义 $H_{ϵ}$ 。
王剑每曰观察在从 $S$ 中独立同分布地抽取的训练样本上，一个假设 $h$ 在 $H_{ϵ}$ 中的一致性可以被如下界定：

P [R_{S} (h) = 0] \leq (1 - ϵ)^{m}

因此，根据并集界定，以下成立：

= \leq \leq \leq \leq P [\exists h \in H_{ϵ} : R_{S} (h) = 0] P [R_{S} (h_{1}) = 0 \lor \dots \lor R_{S} (h_{∣ H_{ϵ} ∣}) = 0] h \in H_{ϵ} \sum P [R_{S} (h) = 0] h \in H_{ϵ} \sum (1 - ϵ)^{m} ∣ H_{ϵ} ∣ (1 - ϵ)^{m} ∣ H ∣ e^{- m ϵ} .

将右侧设置为等于 $δ$ 并求解 $ϵ$ ，证明结束。 \end{proof}

样本大小对学习界的影响

定理表明，

当假设集 $H$ 是有限的时候，

一个一致算法 $A$ 是一个PAC学习算法，

因为由 (2.8) 给出的样本复杂度被 $1/ ϵ$ 和 $1/ δ$ 的多项式主导。

如 (2.9) 所示，一致假设的泛化误差被一个随样本大小 $m$ 减小的项界定。

这是一个普遍的事实：

如预期的那样，学习算法从更大的标记训练样本中获益。

然而，本定理保证的 $O (1/ m)$ 的减少率特别有利。

代价

为提出一个一致算法所付出的代价是

使用一个包含目标概念的更大假设集 $H$ 。

上界 (2.9) 随着 $∣ H ∣$ 的增加而增加。

然而，这种依赖关系是对数级别的。

$lo g ∣ H ∣$ 可以解释为表示 $H$ 所需的位数。

因此，定理的泛化保证由这个位数 $lo g_{2} ∣ H ∣$ 与样本大小 $m$ 的比例控制。

Youliang Zhong

Graph View

学习界限 -- H 有限一致情况.sync-conflict-20240913-122712-3GMNY6D