4.4 交叉验证

模型选择的另一种方法，交叉验证，包括使用训练样本的一部分作为验证集来选择一个假设集 $H_{k}$ 。

这与依赖理论学习界限为每个假设集分配惩罚的SRM模型形成对比。
在本节中，我们分析交叉验证方法并将其性能与SRM进行比较。

与前一节类似，设 $(H_{k})_{k \geq 1}$ 为一个具有递增复杂度的可数假设集序列。交叉验证(CV)的解是通过以下方式获得的。

设 $S$ 为大小为 $m$ . $S$ 的独立同分布带标签样本
将其分为大小为 $(1 - α) m$ 的样本 $S_{1}$ 和大小为 $α m$ 的样本 $S_{2}$ ，其中
- $α \in (0, 1)$ 通常选择相对较小。
- $S_{1}$ 保留用于训练，
- $S_{2}$ 用于验证。
对于任意的 $k \in N$ ，设 $h_{S_{1}, k}^{ERM}$ 表示使用假设集 $H_{k}$ 在 $S_{1}$ 上运行ERM得到的解。
通过交叉验证返回的假设 $h_{S}^{CV}$ 是ERM解 $h_{S_{1}, k}^{ERM}$ 在 $S_{2}$ 上表现最好的:

h_{S}^{CV} = h \in {h_{S_{1}, k}^{ERM} : k \geq 1} argmin R_{S_{2}} (h) (4.7)

以下的一般结果将帮助我们推导出交叉验证的学习保证。

命题4.3

对于

任意的 $α > 0$

任意的样本大小 $m \geq 1$ ，

以下的一般不等式成立:
$\leq P [k \geq 1 sup R (h_{S_{1}, k}^{ERM}) - R_{S_{2}} (h_{S_{1}, k}^{ERM}) > ϵ + \frac{lo g k}{α m}] 4 e^{- 2 α m ϵ^{2}} .$

\begin{proof} 通过联合界，我们可以写出

P [k \geq 1 sup R (h_{S_{1}, k}^{ERM}) - R_{S_{2}} (h_{S_{1}, k}^{ERM}) > ϵ + \frac{lo g k}{α m}] \leq k = 1 \sum \infty P [R (h_{S_{1}, k}^{ERM}) - R_{S_{2}} (h_{S_{1}, k}^{ERM}) > ϵ + \frac{lo g k}{α m}] = k = 1 \sum \infty E [P [R (h_{S_{1}, k}^{ERM}) - R_{S_{2}} (h_{S_{1}, k}^{ERM}) > ϵ + \frac{lo g k}{α m} ∣ S_{1}]] .

假设 $h_{S_{1}, k}^{ERM}$ 在 $S_{1}$ 的条件下是固定的。此外，样本 $S_{2}$ 与 $S_{1}$ 独立。因此，通过 Hoeffding 不等式，我们可以界定条件概率如下:

P [R (h_{S_{1}, k}^{ERM}) - R_{S_{2}} (h_{S_{1}, k}^{ERM}) > ϵ + \frac{lo g k}{α m} S_{1}] \leq 2 e^{- 2 α m (ϵ + \frac{l o g k}{α m})^{2}} \leq 2 e^{- 2 α m ϵ^{2} - 2 l o g k} = \frac{2}{k ^{2}} e^{- 2 α m ϵ^{2}} .

将这个界右侧代入(4.8)并对 $k$ 求和得到

P [k \geq 1 sup R (h_{S_{1}, k}^{ERM}) - R_{S_{2}} (h_{S_{1}, k}^{ERM}) > ϵ + \frac{lo g k}{α m}] \leq \frac{π ^{2}}{3} e^{- 2 α m ϵ^{2}} < 4 e^{- 2 α m ϵ^{2}}

这就完成了证明。 \end{proof}

设

$R (h_{S_{1}}^{SRM})$ 为使用大小为 $(1 - α m)$ 的样本 $S_{1}$ 的SRM解的泛化误差，
$R (h_{S}^{CV}, S)$ 为使用大小为 $m$ 的样本 $S$ 的交叉验证解的泛化误差。那么，利用命题4.3，可以推导出以下的学习保证，它比较了CV方法的误差与SRM的误差。

定理4.4 交叉验证与SRM的比较)

对任意 $δ > 0$ , 有至少 $1 - δ$ 的概率，以下成立:
$R (h_{S}^{CV}) - R (h_{S_{1}}^{SRM}) \leq 2 \frac{lo g max ( k ( h _{S}^{CV} ) , k ( h _{S_{1}}^{SRM} ) )}{α m} + 2 \frac{lo g \frac{4}{δ}}{2 α m},$
其中，对于任何 $h$ , $k (h)$ 表示包含 $h$ 的假设集的最小索引。

\begin{proof} 根据命题4.3 和定理4.2, 利用 $h_{S}^{CV}$ 作为最小化者的性质，对于任何 $δ > 0$ ，在至少 $1 - δ$ 的概率下，以下不等式成立:

R (h_{S}^{CV}) \leq R_{S_{2}} (h_{S}^{CV}) + \frac{lo g ( k ( h _{S}^{CV} ) )}{α m} + \frac{lo g \frac{4}{δ}}{2 α m} \leq R_{S_{2}} (h_{S_{1}}^{SRM}) + \frac{lo g ( k ( h _{S}^{CV} ) )}{α m} + \frac{lo g \frac{4}{δ}}{2 α m} \leq R (h_{S_{1}}^{SRM}) + \frac{lo g ( k ( h _{S}^{CV} ) )}{α m} + \frac{lo g ( k ( h _{S_{1}}^{SRM} ) )}{α m} + 2 \frac{lo g \frac{4}{δ}}{2 α m} \leq R (h_{S_{1}}^{SRM}) + 2 \frac{lo g ( max ( k ( h _{S}^{CV} ) , k ( h _{S_{1}}^{SRM} ) )}{α m} + 2 \frac{lo g \frac{4}{δ}}{2 α m} .

这完成了证明。 \end{proof}

刚才证明的学习保证显示，

对于样本大小为 $m$ 的CV解，其泛化误差与样本大小为 $(1 - α) m$ 的SRM解的泛化误差相近。
对于相对较小的 $α$ ，这表明了一个类似于SRM的保证，正如之前讨论的，这是非常有利的。
然而，在某些不利的条件下，一个算法(在这里是SRM)在 $(1 - α) m$ 个点上训练的性能可能比在 $m$ 个点上训练的性能差得多
- 避免这种相变问题是实际中使用 $n$ 倍交叉验证方法的主要动机之一，参见 4.5 n-折交叉验证。
因此，这个界限实际上暗示了一个权衡:
- $α$ 应该足够小以避免刚刚提到的有利条件，
- 同时应该足够大，以便界限右侧保持较小且具有信息性。

在实践中，CV的学习界限在某些情况下可以更加明确。

例如，假设假设集 $H_{k}$ 是嵌套的，并且ERM解的实证误差 $h_{S_{1}, k}^{ERM}$ 在达到零之前是递减的:
对于任何 $k$ ，对于所有满足 $R_{S_{1}} (h_{S_{1}, k}^{ERM}) > 0$ 的 $k$ 以及 $R_{S_{1}} (h_{S_{1}, k + 1}^{ERM}) \leq R_{S_{1}} (h_{S_{1}, k}^{ERM})$ 其他情况, $R_{S_{1}} (h_{S_{1}, k + 1}^{ERM}) < R_{S_{1}} (h_{S_{1}, k}^{ERM})$
注意到 $R_{S_{1}} (h_{S_{1}, k}^{ERM}) > 0$ 至少意味着 $h_{S_{1}, k}^{ERM}$ 的一个误差，因此 $R_{S_{1}} (h_{S_{1}, k}^{ERM}) > \frac{1}{m}$
鉴于这一点，我们必须有，对于所有 $n \geq m + 1$ ， $R_{S_{1}} (h_{S_{1}, n}^{ERM}) = 0$
因此，我们得到，对于所有 $n \geq m + 1$ ， $h_{S_{1}, n}^{ERM} = h_{S_{1}, m + 1}^{ERM}$
并且我们可以假设 $k (f_{C V}) \leq m + 1$
由于 $H_{k}$ 的复杂性随 $k$ 增加而增加，我们还得到 $k (f_{SRM}) \leq m + 1$
鉴于这一点，我们得到以下更明确的学习界限，用于交叉验证:

R (f_{C V}, S) - R (f_{SRM}, S_{1}) \leq 2 \frac{lo g ( \frac{4}{δ} )}{2 α m} + 2 \frac{lo g ( m + 1 )}{α m} .

Youliang Zhong

Backlinks

Graph View

4.4 交叉验证