-
上一节中,我们给出了关于泛化误差的几个上界。
-
相比之下,本节将提供任何学习算法的泛化误差的下界,
- 这些下界是基于所使用假设集合的 VC 维度给出的。
-
这些下界是通过找到一个“糟糕的”分布来展示的,适用于任意算法。
- 由于学习算法是任意的,具体指定这个分布很困难。
- 因此,只需非构造性地证明该分布的存在即可。
- 从高层次上讲,所使用的证明技术是保罗·埃尔德什的概率方法。
- 在接下来的证明中,首先给出了关于定义分布参数的期望误差的下界。
- 基于此,展示了该下界对于至少一组参数(即某个分布)成立。
定理 3.20 下界,可实现情况
- 设 为 VC 维度为 的假设集合。
- 则对于
- 任意的
- 任意的学习算法 ,
- 存在
- 一个定义在 上的分布
- 一个目标函数 ,
- 使得 \underset{S \sim {\mathcal{D}}^{m}}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},f}\right) > \frac{d - 1}{32m}}\right\rbrack \geq 1/{100}. \tag{3.31}
\begin{proof}
-
定义:
- 令
- 该集合被 打碎
-
对于任意的 :
- 选择分布
- 支持集被限制为
- 其中一点 的概率:
- 非常高的概率
- 其他点的概率质量均匀分布: -
- 选择分布
-
样本特性:
- 大多数样本将包含
- 由于 被打碎,算法 在确定不在训练集中的点 的标签时,无法比抛硬币更好
-
假设:
- 不失一般性情况下,算法 在 上没有错误
-
样本表示:
- 用 表示元素落在 中的集合
- 令 为样本 的集合,大小为 ,
- 使得
-
固定一个样本
- 考虑所有标记 的均匀分布
- 这些标记都在 中
-
以下下界成立:
-
第一个下界成立:
- 仅考虑 而非所有
- 从求和中去除了非负项
-
重新排列项后,后续等式成立:
- 因为对每个 取均匀权重的期望
- 由于 打碎了
-
最后一个下界成立:
- 基于 和 的定义
- 后者意味着
-
由于 (3.33) 对于所有 成立:
- 它在所有 的期望中也成立
-
表达式:
-
根据费比尼定理:
- 期望可以交换 \underset{f \sim \mathcal{U}}{\mathbb{E}}\left\lbrack {\underset{S \in \mathcal{S}}{\mathbb{E}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},f}\right) }\right\rbrack }\right\rbrack \geq {2\epsilon } \tag{3.34}
-
可见
- 对于至少一个标记 成立
-
期望分解:
- 将期望分解为两部分
- 使用不等式:
-
得到:
在 中,得到: \underset{S \in \mathcal{S}}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},{f}_{0}}\right) \geq \epsilon }\right\rbrack \geq \frac{1}{7\epsilon }\left( {{2\epsilon } - \epsilon }\right) = \frac{1}{7}. \tag{3.35}
因此,所有样本 (不一定在 中)的概率可以下界为: \underset{S}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},{f}_{0}}\right) \geq \epsilon }\right\rbrack \geq \underset{S \in \mathcal{S}}{\mathbb{P}}\left\lbrack {{R}_{\mathcal{D}}\left( {{h}_{S},{f}_{0}}\right) \geq \epsilon }\right\rbrack \mathbb{P}\left\lbrack \mathcal{S}\right\rbrack \geq \frac{1}{7}\mathbb{P}\left\lbrack \mathcal{S}\right\rbrack . \tag{3.36}
- 这使我们能够找到 的下界
- 根据乘法切尔诺夫界限(定理 D.4):
- 对于任何
- 样本大小为 时:
- 抽取超过 个点的概率满足 1 - \mathbb{P}\left\lbrack \mathcal{S}\right\rbrack = \mathbb{P}\left\lbrack {{S}_{m} \geq {8\epsilon m}\left( {1 + \gamma }\right) }\right\rbrack \leq {e}^{-{8\epsilon m}\frac{{\gamma }^{2}}{3}}. \tag{3.37}
因此,对于 和 , \mathbb{P}\left\lbrack {{S}_{m} \geq \frac{d - 1}{2}}\right\rbrack \leq {e}^{-\left( {d - 1}\right) /{12}} \leq {e}^{-1/{12}} \leq 1 - {7\delta }, \tag{3.38} 对于 ,因此
-
,
-
。
\end{proof}
-
定理结果:
- 对于任何算法 :
- 存在一个关于 的 “糟糕” 分布和一个目标函数
- 使得 返回的假设的错误率是某个常数倍的
- 并且具有一定的概率
- 对于任何算法 :
-
结论:
- 进一步证明了 VC 维度在学习中的关键作用
- 特别地:
- 该结果暗示在可实现的情况下:
- 当 VC 维度无限时,PAC 学习是不可能的
-
注意:
-
证明显示的结果比定理的陈述更强:
- 分布 是独立于算法 选择的
-
下一个步骤:
- 提出一个在非可实现情况下给出下界的定理
- 证明将需要以下两个引理
引理 3.21
- 设 为均匀分布的随机变量,
- 取值于 ,
- 其中 和 。
- 令 为一个包含 个随机变量 的样本,
- 这些随机变量取值于 ,
- 并根据分布 独立同分布地抽取,
- 定义为
- 令 为从 到 的函数,则以下成立: \underset{\alpha }{\mathbb{E}}\left\lbrack {\underset{S \sim {\mathcal{D}}_{\alpha }^{m}}{\mathbb{P}}\left\lbrack {h\left( S\right) \neq \alpha }\right\rbrack }\right\rbrack \geq \Phi \left( {2\lceil m/2\rceil ,\epsilon }\right) , \tag{3.39} 这里 对所有 和 成立。
\begin{proof}
- 引理解释:
- 通过一个实验进行解释
- 涉及两枚硬币,偏差分别为 和
- 意义:
- 对于基于从 或 抽取的样本 的判别规则
- 要确定哪枚硬币被抛掷:
- 样本大小 必须至少为
- 通过一个实验进行解释
- 证明:
- 留作练习(练习 D.3)
\end{proof}
我们将利用这样一个事实:
- 对于任意固定的 ,函数 是凸函数,这一点不难证明。
引理 3.22
- 设 是一个取值于 的随机变量。
- 则对于任意 ,
\mathbb{P}\left\lbrack {z > \gamma }\right\rbrack \geq \frac{\mathbb{E}\left\lbrack Z\right\rbrack - \gamma }{1 - \gamma } > \mathbb{E}\left\lbrack Z\right\rbrack - \gamma \tag{3.40}
\begin{proof}
由于 取值于 ,
得证
\end{proof}
定理 3.23(下界,非可实现情况)
\mathbb{P}_{S \sim \mathcal{D}^{m}}\left[ R_{\mathcal{D}}(h_{S}) - \inf_{h \in \mathcal{H}} R_{\mathcal{D}}(h) > \sqrt{\frac{d}{320m}} \right] \geq \frac{1}{64} \tag{3.41}$$ - 样本复杂度: - 对于任何学习算法: - 满足: $$m \geq \frac{d}{320 \epsilon^{2}} \tag{3.42}$$
- 假设集:
- 设 为一个假设集
- VC 维度为
- 结果:
- 对于任意 和任意学习算法
- 存在一个分布 在 上,使得:
\begin{proof}
-
定义:
- 设
- 为一个被 分割的集合
-
参数:
- 对于任意
- 以及任意向量
-
分布定义:
- 定义一个支撑集为 的分布 ,定义如下:
\forall i \in \left\lbrack d\right\rbrack ,\;\underset{{\mathcal{D}}_{\mathbf{\sigma }}}{\mathbb{P}}\left\lbrack \left( {{x}_{i},1}\right) \right\rbrack = \frac{1}{d}\left( {\frac{1}{2} + \frac{{\sigma }_{i}\alpha }{2}}\right) . \tag{3.43}
-
标签分布:
- 每个点 的标签遵循分布:
- 即一个偏置硬币的分布:
- 偏置由 的符号和 的大小决定
- 每个点 的标签遵循分布:
-
学习算法要求:
- 为了确定每个点 的最可能标签
- 需要估计:
- 其精度必须优于
-
问题复杂度:
- 为了使问题更加困难:
- 和 将根据算法来选择
- 根据引理 3.21:
- 每个点 在训练样本中需要至少 个实例
- 为了使问题更加困难:
-
贝叶斯分类器定义:
- 贝叶斯分类器 定义为:
- 适用范围:
- 对于所有
- 在 中,因为 被分割
- 贝叶斯分类器 定义为:
-
对于所有 :
-
假设定义:
- 设 为学习算法 在接收到根据 抽取的标记样本 后返回的假设
-
记号:
- 用 表示点 在 中的出现次数
- 令 表示在 上的均匀分布
-
结论:
- 根据 (3.44),以下成立:
由于 的期望被 下界, 因此必定存在某个 ,使得
然后,根据引理 3.22,对于该 ,对于任意 , \underset{S \sim {\mathcal{D}}_{\sigma }^{m}}{\mathbb{P}}\left\lbrack {\frac{1}{\alpha }\left\lbrack {{R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{S}\right) - {R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{{\mathcal{D}}_{\sigma }}^{ * }\right) }\right\rbrack > {\gamma u}}\right\rbrack > \left( {1 - \gamma }\right) u, \tag{3.46} 其中 。
选择 和 使得 且 ,可以得到 \underset{S \sim {\mathcal{D}}_{\sigma }^{m}}{\mathbb{P}}\left\lbrack {{R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{S}\right) - {R}_{{\mathcal{D}}_{\sigma }}\left( {h}_{{\mathcal{D}}_{\sigma }}^{ * }\right) > \epsilon }\right\rbrack > \delta . \tag{3.47}
为了满足定义 和 的不等式,令 。 那么,
选择 ,可以得到 ,并且满足 \frac{m}{d} \leq \left( {\frac{{\left( 1 - 8\delta \right) }^{2}}{{64}{\epsilon }^{2}} - 1}\right) \log \frac{4}{3} - 1 \tag{3.52}
我们令 表示右侧表达式,并且我们正在寻找一个足够条件的形式 。由于 ,为了确保 ,我们只需要施加条件:
这个条件可以简化并确定 的具体取值。
因此, 是确保这些不等式成立的充分条件。
\end{proof}
-
定理说明:
- 在非可实现的情况下
- 对于任何算法
- 存在一个“糟糕的”分布在 上
- 使得算法 返回的假设的错误率是某个常数乘以
- 并且具有某个常数概率
-
VC-维度的重要性:
- VC-维度在这一广义的学习设置中作为一个关键量出现
- 特别地,当 VC-维度为无限时
- 不可知的 PAC 学习是不可能的
-
这进一步表明 VC-维度的限制在无论可实现还是不可实现的学习场景中,
- 都是影响学习算法有效性的重要因素。