• 上一节中,我们给出了关于泛化误差的几个上界。

  • 相比之下,本节将提供任何学习算法的泛化误差的下界,

    • 这些下界是基于所使用假设集合的 VC 维度给出的。
  • 这些下界是通过找到一个“糟糕的”分布来展示的,适用于任意算法。

    • 由于学习算法是任意的,具体指定这个分布很困难。
    • 因此,只需非构造性地证明该分布的存在即可。
    • 从高层次上讲,所使用的证明技术是保罗·埃尔德什的概率方法。
      • 在接下来的证明中,首先给出了关于定义分布参数的期望误差的下界。
      • 基于此,展示了该下界对于至少一组参数(即某个分布)成立。

定理 3.20 下界,可实现情况

  • 为 VC 维度为 的假设集合。
  • 则对于
    • 任意的
    • 任意的学习算法
  • 存在
    • 一个定义在 上的分布
    • 一个目标函数
  • 使得 \underset{S \sim {\mathcal{D}}^{m}}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},f}\right) > \frac{d - 1}{32m}}\right\rbrack \geq 1/{100}. \tag{3.31}

\begin{proof}

  • 定义:

    • 该集合被 打碎
  • 对于任意的

    • 选择分布
      • 支持集被限制为
      • 其中一点 的概率:
    • 非常高的概率
    • 其他点的概率质量均匀分布: -
  • 样本特性:

    • 大多数样本将包含
    • 由于 被打碎,算法 在确定不在训练集中的点 的标签时,无法比抛硬币更好
  • 假设:

    • 不失一般性情况下,算法 上没有错误
  • 样本表示:

    • 表示元素落在 中的集合
    • 为样本 的集合,大小为
      • 使得
  • 固定一个样本

    • 考虑所有标记 的均匀分布
    • 这些标记都在
  • 以下下界成立:

  • 第一个下界成立:

    • 仅考虑 而非所有
    • 从求和中去除了非负项
  • 重新排列项后,后续等式成立:

    • 因为对每个 取均匀权重的期望
    • 由于 打碎了
  • 最后一个下界成立:

    • 基于 的定义
    • 后者意味着
  • 由于 (3.33) 对于所有 成立:

    • 它在所有 的期望中也成立
  • 表达式:

  • 根据费比尼定理:

    • 期望可以交换 \underset{f \sim \mathcal{U}}{\mathbb{E}}\left\lbrack {\underset{S \in \mathcal{S}}{\mathbb{E}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},f}\right) }\right\rbrack }\right\rbrack \geq {2\epsilon } \tag{3.34}
  • 可见

    • 对于至少一个标记 成立
  • 期望分解:

    • 将期望分解为两部分
    • 使用不等式:
  • 得到:

中,得到: \underset{S \in \mathcal{S}}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},{f}_{0}}\right) \geq \epsilon }\right\rbrack \geq \frac{1}{7\epsilon }\left( {{2\epsilon } - \epsilon }\right) = \frac{1}{7}. \tag{3.35}

因此,所有样本 (不一定在 中)的概率可以下界为: \underset{S}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},{f}_{0}}\right) \geq \epsilon }\right\rbrack \geq \underset{S \in \mathcal{S}}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},{f}_{0}}\right) \geq \epsilon }\right\rbrack \mathbb{P}\left\lbrack \mathcal{S}\right\rbrack \geq \frac{1}{7}\mathbb{P}\left\lbrack \mathcal{S}\right\rbrack . \tag{3.36}

  • 这使我们能够找到 的下界
  • 根据乘法切尔诺夫界限(定理 D.4):
    • 对于任何
    • 样本大小为 时:
    • 抽取超过 个点的概率满足 1 - \mathbb{P}\left\lbrack \mathcal{S}\right\rbrack = \mathbb{P}\left\lbrack {{S}_{m} \geq {8\epsilon m}\left( {1 + \gamma }\right) }\right\rbrack \leq {e}^{-{8\epsilon m}\frac{{\gamma }^{2}}{3}}. \tag{3.37}

因此,对于 \mathbb{P}\left\lbrack {{S}_{m} \geq \frac{d - 1}{2}}\right\rbrack \leq {e}^{-\left( {d - 1}\right) /{12}} \leq {e}^{-1/{12}} \leq 1 - {7\delta }, \tag{3.38} 对于 ,因此

  • \end{proof}

  • 定理结果:

    • 对于任何算法
      • 存在一个关于 的 “糟糕” 分布和一个目标函数
      • 使得 返回的假设的错误率是某个常数倍的
      • 并且具有一定的概率
  • 结论:

    • 进一步证明了 VC 维度在学习中的关键作用
    • 特别地:
      • 该结果暗示在可实现的情况下:
      • 当 VC 维度无限时,PAC 学习是不可能的
  • 注意:

  • 证明显示的结果比定理的陈述更强:

    • 分布 是独立于算法 选择的
  • 下一个步骤:

    • 提出一个在非可实现情况下给出下界的定理
    • 证明将需要以下两个引理

引理 3.21

  • 为均匀分布的随机变量,
    • 取值于
      • 其中
  • 为一个包含 个随机变量 的样本,
    • 这些随机变量取值于
    • 并根据分布 独立同分布地抽取,
  • 定义为
  • 为从 的函数,则以下成立: \underset{\alpha }{\mathbb{E}}\left\lbrack {\underset{S \sim {\mathcal{D}}_{\alpha }^{m}}{\mathbb{P}}\left\lbrack {h\left( S\right) \neq \alpha }\right\rbrack }\right\rbrack \geq \Phi \left( {2\lceil m/2\rceil ,\epsilon }\right) , \tag{3.39} 这里 对所有 成立。

\begin{proof}

  • 引理解释:
    • 通过一个实验进行解释
      • 涉及两枚硬币,偏差分别为
    • 意义:
      • 对于基于从 抽取的样本 的判别规则
      • 要确定哪枚硬币被抛掷:
        • 样本大小 必须至少为
  • 证明:
    • 留作练习(练习 D.3)

\end{proof}

我们将利用这样一个事实:

  • 对于任意固定的 ,函数 是凸函数,这一点不难证明。

引理 3.22

  • 是一个取值于 的随机变量。
  • 则对于任意

\mathbb{P}\left\lbrack {z > \gamma }\right\rbrack \geq \frac{\mathbb{E}\left\lbrack Z\right\rbrack - \gamma }{1 - \gamma } > \mathbb{E}\left\lbrack Z\right\rbrack - \gamma \tag{3.40}

\begin{proof} 由于 取值于

得证 \end{proof}

定理 3.23(下界,非可实现情况)

  • 假设集:
    • 为一个假设集
    • VC 维度为
  • 结果:
  • 对于任意 和任意学习算法
  • 存在一个分布 上,使得:
\mathbb{P}_{S \sim \mathcal{D}^{m}}\left[ R_{\mathcal{D}}(h_{S}) - \inf_{h \in \mathcal{H}} R_{\mathcal{D}}(h) > \sqrt{\frac{d}{320m}} \right] \geq \frac{1}{64} \tag{3.41}$$ - 样本复杂度: - 对于任何学习算法: - 满足: $$m \geq \frac{d}{320 \epsilon^{2}} \tag{3.42}$$

\begin{proof}

  • 定义:

    • 为一个被 分割的集合
  • 参数:

    • 对于任意
    • 以及任意向量
  • 分布定义:

    • 定义一个支撑集为 的分布 ,定义如下:

\forall i \in \left\lbrack d\right\rbrack ,\;\underset{{\mathcal{D}}_{\mathbf{\sigma }}}{\mathbb{P}}\left\lbrack \left( {{x}_{i},1}\right) \right\rbrack = \frac{1}{d}\left( {\frac{1}{2} + \frac{{\sigma }_{i}\alpha }{2}}\right) . \tag{3.43}

  • 标签分布:

    • 每个点 的标签遵循分布:
      \mathbb{P}{\mathcal{D}{\mathbf{\sigma}}}[\cdot \mid x_{i}]
    • 即一个偏置硬币的分布:
      • 偏置由 的符号和 的大小决定
  • 学习算法要求:

    • 为了确定每个点 的最可能标签
    • 需要估计:
      \mathbb{P}{\mathcal{D}{\mathbf{\sigma}}}[1 \mid x_{i}]
    • 其精度必须优于
  • 问题复杂度:

    • 为了使问题更加困难:
      • 将根据算法来选择
      • 根据引理 3.21:
        • 每个点 在训练样本中需要至少 个实例
  • 贝叶斯分类器定义:

    • 贝叶斯分类器 定义为:
      h_{\mathcal{D}{\sigma}}^{*}(x{i}) = \operatorname{argmax}{y \in { 0, 1 }} \mathbb{P}[y \mid x{i}] = 1_{\sigma_{i} > 0}
    • 适用范围:
      • 对于所有
      • 中,因为 被分割
  • 对于所有

  • 假设定义:

    • 为学习算法 在接收到根据 抽取的标记样本 后返回的假设
  • 记号:

    • 表示点 中的出现次数
    • 表示在 上的均匀分布
  • 结论:

    • 根据 (3.44),以下成立:

由于 的期望被 下界, 因此必定存在某个 ,使得

然后,根据引理 3.22,对于该 ,对于任意 \underset{S \sim {\mathcal{D}}_{\sigma }^{m}}{\mathbb{P}}\left\lbrack {\frac{1}{\alpha }\left\lbrack {{R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{S}\right) - {R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{{\mathcal{D}}_{\sigma }}^{ * }\right) }\right\rbrack > {\gamma u}}\right\rbrack > \left( {1 - \gamma }\right) u, \tag{3.46} 其中

选择 使得 ,可以得到 \underset{S \sim {\mathcal{D}}_{\sigma }^{m}}{\mathbb{P}}\left\lbrack {{R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{S}\right) - {R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{{\mathcal{D}}_{\sigma }}^{ * }\right) > \epsilon }\right\rbrack > \delta . \tag{3.47}

为了满足定义 的不等式,令 。 那么,

选择 ,可以得到 ,并且满足 \frac{m}{d} \leq \left( {\frac{{\left( 1 - 8\delta \right) }^{2}}{{64}{\epsilon }^{2}} - 1}\right) \log \frac{4}{3} - 1 \tag{3.52}

我们令 表示右侧表达式,并且我们正在寻找一个足够条件的形式 。由于 ,为了确保 ,我们只需要施加条件:

这个条件可以简化并确定 的具体取值。

因此, 是确保这些不等式成立的充分条件。 \end{proof}

  • 定理说明:

    • 在非可实现的情况下
    • 对于任何算法
    • 存在一个“糟糕的”分布在
      • 使得算法 返回的假设的错误率是某个常数乘以
      • 并且具有某个常数概率
  • VC-维度的重要性:

    • VC-维度在这一广义的学习设置中作为一个关键量出现
    • 特别地,当 VC-维度为无限时
      • 不可知的 PAC 学习是不可能的
  • 这进一步表明 VC-维度的限制在无论可实现还是不可实现的学习场景中,

    • 都是影响学习算法有效性的重要因素。