设 为一个从 映射到的函数族。 从中选择的假设的过剩误差,即它的误差与贝叶斯误差之间的差异,可以分解如下:
- 第一项被称为估计误差,
- 第二项是逼近误差。
估计误差取决于选择的假设 。
- 它衡量的是 相对于 中假设所能达到的最小误差的差距,或者在达到该最小值时,最佳类别假设 的误差。
- 请注意,不可知 PAC 学习的定义正是基于估计误差。
逼近误差衡量的是使用 逼近贝叶斯误差的效果。
- 它是假设集 的一个属性,是其丰富性的一个度量。
- 对于更复杂或更丰富的假设,逼近误差往往较小,但代价是估计误差较大。
- 这由图 4.1 说明。
图 4.1 描述估计误差(绿色)和近似误差(橙色)的图示。 在这里,假设存在一个最佳假设类别,使得
- 模型选择包括选择,在近似误差和估计误差之间有利的权衡。
- 然而,需要注意的是,近似误差是不可访问的,因为在一般情况下,确定所需的真实分布是未知的。
- 即使在各种噪声假设下,估计近似误差也是困难的。
- 相比之下,算法的估计误差,即在对样本进行训练后返回的假设的估计误差,有时可以使用下一节中展示的一般化界限来界定。