选择假设集 的策略
- 方法1: 選擇一個非常複雜的家族
- 可以使近似误差不存在或非常小。
- 然而,這可能導致泛化界限无法适用于。
- 方法2: 逐渐增加假设集的复杂性
- 将分解为逐渐复杂化的假设集的并集,即。
- 其中的复杂性随增加,对于某些集合。
图 4.2 描述一个丰富家族的分解的图示。
- 选择参数
- 来决定应该选择哪个假设集。
- 目的是在估计误差和近似误差之间找到最有利的权衡。
- 过量误差 (excess error) (也称为过量风险 (excess risk))
- 可以对其和,即,使用统一的上限。
图4.3 选择具有最有利估计误差和近似误差权衡的 。
结构风险最小化 (SRM) 方法
- 假设集 的分解
- 可以将假设集 分解为可数集。
- 例如,。
- 嵌套假设集
- 假设集 被假设为嵌套的:对于所有 。
- 然而,这些结果也适用于非嵌套的假设集。
- SRM 流程
- 选择索引 和 ERM 假设 在 中,以最小化过量误差的上界。
如我们将看到的,以下学习界对所有 都成立:
- 对于任何,
- 在从 中抽取大小为 的样本 的概率至少为 的情况下,
- 对于所有 和 ,
因此,为了最小化由此产生的过量误差 的上界,指标 和假设 应该被选择来最小化以下目标函数
这正是 SRM 解 的定义:
结构风险最小化 (SRM) 方法
- 确定最优索引
- SRM 确定了一个最优索引 。
- 这意味着也确定了假设集 。
- 返回 ERM 解
- 基于选定的假设集 ,SRM 返回 ERM 解。
- SRM 通过最小化训练误差和惩罚项 之和的上界,进一步说明了对索引 和假设集 的选择。
- 对于任何 ,我们将用 表示包含 的 中最简单的假设集。
- 任何 ,SRM 解都比 ERM 解在过量误差方面好。
图4.4 结构风险最小化的图示。 显示了三个误差随索引变化的曲线。 显然,随着的增加,或者说假设集的复杂度增加,训练误差减小,而惩罚项增加。 SRM 选择使泛化误差上界最小的假设,该上界是经验误差和惩罚项的和。
定理4.2 SRM学习保证
- 对于任意的 ,
- 从 中抽取大小为 的 i.i.d. 样本
- 至少为 的概率下,
- SRM方法返回的假设 的泛化误差有如下界限:
\begin{proof}
首先观察到,由联合界可知,以下不等式成立:
接下来,对于任意两个随机变量 和 , 如果, 那么 或 必须大于。 基于这一点,由联合界可知, 使用这个不等式、不等式(4.5)以及对于所有都成立的不等式 根据 的定义,我们可以写出,对于任意 ,
将右侧设置为等于,完成证明。
\end{proof}
刚才证明的SRM学习保证是引人注目的。
- 为了简化讨论,假设存在 使得
- 即存在一个最佳分类器 。
- 那么,定理特别暗示,
- 在至少为 的概率下,
- 以下不等式对于所有 都成立:
- 注意到,值得注意的是,这个界限与 的估计误差界限相似:
- 它仅与项 不同。
- 因此,除了该项之外,SRM 的保证与如果我们有一个告知我们最佳分类器的假设集索引 的预言者所获得的保证一样有利。
此外,观察到
- 当足够丰富
- 以至于接近贝叶斯误差时,
- 学习界限(4.6)大致上是SRM解的过量误差的界限。
- 注意,如果对于某些 ,ERM解的实证误差为零,
- 特别是当包含贝叶斯误差时,
- 那么,对于所有我们有
- 并且只需要在SRM中考虑有限多个指标。
更一般地假设,
- 如果 对于某些 成立,那么无需检查 以外的指标。
- 例如,如果在某个指标 之后实证误差不能再进一步改善,那么这个性质可能成立。
- 在这种情况下,可以通过在区间中进行二分搜索来确定最小化指标,给定某个最大值。
- ,该最大值本身可以通过检查 对于指数增长的指标 , ,并设置 对于 使得 来找到。
- 找到 需要的ERM计算次数在 之内,同样,由于二分搜索导致的ERM计算次数在 之内。因此,如果 是使得 成立的最小整数,那么总的ERM计算次数在 之内。
结构风险最小化 (SRM) 方法的缺点
- 缺乏灵活性
- SRM 依赖于 可分解为可数多个假设集,每个假设集的 Rademacher 复杂度都收敛。
- 这仍然是一个很强的假设。
- 例如,所有可测函数的族不能写成有限 VC维的可数多个假设集的并集。
- 需要选择 或
- 选择 或假设集 是 SRM 的关键组成部分。
- 这需要对问题和数据进行详细了解。
- 计算成本高昂
- SRM 的主要缺点是计算成本高昂:
- 对于大多数假设集,找到 ERM 的解是 NP 困难的。
- 通常,SRM 需要确定大量指标 的解。
- 这使得 SRM 不适合大规模数据或复杂问题。
- SRM 的主要缺点是计算成本高昂:
- 处理挑战
- SRM 仍然存在处理挑战的问题:
- 可能需要人工调整参数和超参数。
- 需要仔细选择假设集 以确保收敛和性能。
- SRM 仍然存在处理挑战的问题: