4.3 结构风险最小化(SRM)

选择假设集 $H$ 的策略

方法1: 選擇一個非常複雜的家族 $H$
- 可以使近似误差不存在或非常小。
- 然而，這可能導致泛化界限无法适用于 $H$ 。
方法2: 逐渐增加假设集的复杂性
- 将 $H$ 分解为逐渐复杂化的假设集的并集 $H_{γ}$ ，即 $H = γ \in Γ ⋃ H_{γ}$ 。
- 其中 $H_{γ}$ 的复杂性随 $γ$ 增加，对于某些集合 $Γ$ 。

图 4.2 描述一个丰富家族 $H = γ \in Γ ⋃ H_{γ}$ 的分解的图示。 01924b36-62e2-7d6a-9feb-ac32232c9804_2_459_241_889_537_0.jpg

选择参数 $γ^{*} \in Γ$
- 来决定应该选择哪个假设集 $H_{γ^{*}}$ 。
- 目的是在估计误差和近似误差之间找到最有利的权衡。
过量误差 (excess error) (也称为过量风险 (excess risk))
- 可以对其和，即 $γ \in Γ ⋃ H_{γ}$ ，使用统一的上限。

图4.3 选择具有最有利估计误差和近似误差权衡的 $γ^{*}$ 。 01924b36-62e2-7d6a-9feb-ac32232c9804_3_551_256_715_529_0.jpg

结构风险最小化 (SRM) 方法

假设集 $H$ 的分解
- 可以将假设集 $H$ 分解为可数集。
- 例如， $H = k \geq 1 ⋃ H_{k}$ 。
嵌套假设集
- 假设集 $H_{k}$ 被假设为嵌套的： $H_{k} \subset H_{k + 1}$ 对于所有 $k \geq 1$ 。
- 然而，这些结果也适用于非嵌套的假设集。
SRM 流程
- 选择索引 $k^{*} \geq 1$ 和 ERM 假设 $h$ 在 $H_{k^{*}}$ 中，以最小化过量误差的上界。

如我们将看到的，以下学习界对所有 $h \in H$ 都成立:

对于任何 $δ > 0$ ，
在从 $D^{m}$ 中抽取大小为 $m$ 的样本 $S$ 的概率至少为 $1 - δ$ 的情况下，
对于所有 $h \in H_{k}$ 和 $k \geq 1$ ，

R (h) \leq R_{S} (h) + ℜ_{m} (H_{k (h)}) + \frac{lo g k}{m} + \frac{lo g \frac{2}{δ}}{2 m} .

因此，为了最小化由此产生的过量误差 $(R (h) - R^{*})$ 的上界，指标 $k$ 和假设 $h \in H_{k}$ 应该被选择来最小化以下目标函数

F_{k} (h) = R_{S} (h) + ℜ_{m} (H_{k}) + \frac{lo g k}{m} .

这正是 SRM 解 $h_{S}^{SRM}$ 的定义:

h_{S}^{SRM} = k \geq 1, h \in H_{k} argmin F_{k} (h) = k \geq 1, h \in H_{k} argmin R_{S} (h) + R_{m} (H_{k}) + \frac{lo g k}{m} . (4.4)

结构风险最小化 (SRM) 方法

确定最优索引 $k^{*}$
- SRM 确定了一个最优索引 $k^{*}$ 。
- 这意味着也确定了假设集 $H_{k^{*}}$ 。
返回 ERM 解
- 基于选定的假设集 $H_{k^{*}}$ ，SRM 返回 ERM 解。

SRM 通过最小化训练误差和惩罚项 $R_{m} (H_{k}) + lo g k / m$ 之和的上界，进一步说明了对索引 $k^{*}$ 和假设集 $H_{k^{*}}$ 的选择。
对于任何 $h \in H$ ，我们将用 $H_{k (h)}$ 表示包含 $h$ 的 $H_{k}$ 中最简单的假设集。
任何 $h \in H$ ，SRM 解都比 ERM 解在过量误差方面好。

图4.4 结构风险最小化的图示。显示了三个误差随索引 $k$ 变化的曲线。显然，随着 $k$ 的增加，或者说假设集 $H_{k}$ 的复杂度增加，训练误差减小，而惩罚项增加。 SRM 选择使泛化误差上界最小的假设，该上界是经验误差和惩罚项的和。 01924b36-62e2-7d6a-9feb-ac32232c9804_4_567_253_672_497_0.jpg

定理4.2 SRM学习保证

对于任意的 $δ > 0$ ，

从 $D^{m}$ 中抽取大小为 $m$ 的 i.i.d. 样本 $S$

至少为 $1 - δ$ 的概率下，

SRM方法返回的假设 $h_{S}^{SRM}$ 的泛化误差有如下界限:

$\leq R (h_{S}^{SRM}) h \in H in f (R (h) + 2 ℜ_{m} (H_{k (h)}) + \frac{lo g k ( h )}{m}) + \frac{2 lo g \frac{3}{δ}}{m} .$

\begin{proof} 首先观察到，由联合界可知，以下不等式成立:

P [h \in H sup R (h) - F_{k (h)} (h) > ϵ] = P [k \geq 1 sup h \in H_{k} sup R (h) - F_{k} (h) > ϵ] \leq k = 1 \sum \infty P [h \in H_{k} sup R (h) - F_{k} (h) > ϵ] = k = 1 \sum \infty P [h \in H_{k} sup R (h) - R_{S} (h) - ℜ_{m} (H_{k}) > ϵ + \frac{lo g k}{m}] \leq k = 1 \sum \infty exp - 2 m [ϵ + \frac{lo g k}{m}]^{2} \leq k = 1 \sum \infty e^{- 2 m ϵ^{2}} e^{- 2 l o g k} = e^{- 2 m ϵ^{2}} k = 1 \sum \infty \frac{1}{k ^{2}} = \frac{π ^{2}}{6} e^{- 2 m ϵ^{2}} \leq 2 e^{- 2 m ϵ^{2}} . (4.5)

接下来，对于任意两个随机变量 $X_{1}$ 和 $X_{2}$ ，如果 $X_{1} + X_{2} > ϵ$ ，那么 $X_{1}$ 或 $X_{2}$ 必须大于 $ϵ /2$ 。基于这一点，由联合界可知， $P [X_{1} + X_{2} > ϵ] \leq P [X_{1} > \frac{ϵ}{2}] + P [X_{2} > \frac{ϵ}{2}] .$ 使用这个不等式、不等式(4.5)以及对于所有 $h \in H$ 都成立的不等式 $F_{k (h_{S}^{SRM})} (h_{S}^{SRM}) \leq F_{k (h)} (h),$ 根据 $h_{S}^{SRM}$ 的定义，我们可以写出，对于任意 $h \in H$ ，

P [R (h_{S}^{SRM}) - R (h) - 2 ℜ_{m} (H_{k (h)}) - \frac{lo g k ( h )}{m} > ϵ] \leq P [R (h_{S}^{SRM}) - F_{k (h_{S}^{SRM})} (h_{S}^{SRM}) > \frac{ϵ}{2}] + P [F_{k (h_{S}^{SRM})} (h_{S}^{SRM}) - R (h) - 2 ℜ_{m} (H_{k (h)}) - \frac{lo g k ( h )}{m} > \frac{ϵ}{2}] \leq 2 e^{- \frac{m ϵ ^{2}}{2}} + P [F_{k (h)} (h) - R (h) - 2 ℜ_{m} (H_{k (h)}) - \frac{lo g k ( h )}{m} > \frac{ϵ}{2}] = 2 e^{- \frac{m ϵ ^{2}}{2}} + P [R_{S} (h) - R (h) - ℜ_{m} (H_{k (h)}) > \frac{ϵ}{2}] = 2 e^{- \frac{m ϵ ^{2}}{2}} + e^{- \frac{m ϵ ^{2}}{2}} = 3 e^{- \frac{m ϵ ^{2}}{2}} .

将右侧设置为等于 $δ$ ，完成证明。 \end{proof}

刚才证明的SRM学习保证是引人注目的。

为了简化讨论，假设存在 $h^{*}$ 使得 $R (h^{*}) = h \in H in f R (h)$
- 即存在一个最佳分类器 $h^{*} \in H$ 。
那么，定理特别暗示，
- 在至少为 $1 - δ$ 的概率下，
- 以下不等式对于所有 $h \in H$ 都成立:

R (h_{S}^{SRM}) \leq R (h^{*}) + 2 ℜ_{m} (H_{k (h^{*})}) + \frac{lo g k ( h ^{*} )}{m} + \frac{2 lo g \frac{3}{δ}}{m} . (4.6)

注意到，值得注意的是，这个界限与 $H_{k (h^{*})}$ 的估计误差界限相似:
- 它仅与项 $lo g k (h^{*}) / m$ 不同。
因此，除了该项之外，SRM 的保证与如果我们有一个告知我们最佳分类器的假设集索引 $k (h^{*})$ 的预言者所获得的保证一样有利。

此外，观察到

当 $H$ 足够丰富
- 以至于 $R (h^{*})$ 接近贝叶斯误差时，
学习界限(4.6)大致上是SRM解的过量误差的界限。
注意，如果对于某些 $k_{0}$ ，ERM解的实证误差为零，
- 特别是当 $H_{k_{0}}$ 包含贝叶斯误差时，
- 那么，对于所有 $k > k_{0}$ 我们有 $h \in H_{k} min F_{k_{0}} (h) \leq h \in H_{k} min F_{k} (h),$
- 并且只需要在SRM中考虑有限多个指标。

更一般地假设，

如果 $h \in H_{k} min F_{k} (h) \leq h \in H_{k + 1} min F_{k} (h)$ 对于某些 $k$ 成立，那么无需检查 $k + 1$ 以外的指标。
- 例如，如果在某个指标 $k$ 之后实证误差不能再进一步改善，那么这个性质可能成立。
在这种情况下，可以通过在区间 $[1, k_{m a x}]$ 中进行二分搜索来确定最小化指标 $k^{*}$ ，给定某个最大值 $k_{m a x}$ 。
$k_{m a x}$ ，该最大值本身可以通过检查 $h \in H_{2^{n}} min F_{k} (h)$ 对于指数增长的指标 $2^{n}$ , $n \geq 1$ ，并设置 $k_{m a x} = 2^{n}$ 对于 $n$ 使得 $h \in H_{2^{n}} min F_{k} (h) \leq h \in H_{2^{n + 1}} min F_{k} (h)$ 来找到。
找到 $k_{m a x}$ 需要的ERM计算次数在 $O (n) = O (lo g k_{m a x})$ 之内，同样，由于二分搜索导致的ERM计算次数在 $O (lo g k_{m a x})$ 之内。因此，如果 $n$ 是使得 $k^{*} < 2^{n}$ 成立的最小整数，那么总的ERM计算次数在 $O (lo g k^{*})$ 之内。

结构风险最小化 (SRM) 方法的缺点

缺乏灵活性
- SRM 依赖于 $H$ 可分解为可数多个假设集，每个假设集的 Rademacher 复杂度都收敛。
- 这仍然是一个很强的假设。
- 例如，所有可测函数的族不能写成有限 VC维的可数多个假设集的并集。
需要选择 $H$ 或 $H_{k}$
- 选择 $H$ 或假设集 $H_{k}$ 是 SRM 的关键组成部分。
- 这需要对问题和数据进行详细了解。
计算成本高昂
- SRM 的主要缺点是计算成本高昂：
  - 对于大多数假设集，找到 ERM 的解是 NP 困难的。
  - 通常，SRM 需要确定大量指标 $k$ 的解。
  - 这使得 SRM 不适合大规模数据或复杂问题。
处理挑战
- SRM 仍然存在处理挑战的问题：
  - 可能需要人工调整参数和超参数。
  - 需要仔细选择假设集 $H_{k}$ 以确保收敛和性能。

Youliang Zhong

Backlinks

Graph View

4.3 结构风险最小化(SRM)