为一个从 映射到的函数族。 从中选择的假设的过剩误差,即它的误差与贝叶斯误差之间的差异,可以分解如下:

  1. 第一项被称为估计误差,
  2. 第二项是逼近误差。

估计误差取决于选择的假设

  • 它衡量的是 相对于 中假设所能达到的最小误差的差距,或者在达到该最小值时,最佳类别假设 的误差。
  • 请注意,不可知 PAC 学习的定义正是基于估计误差。

逼近误差衡量的是使用 逼近贝叶斯误差的效果。

  • 它是假设集 的一个属性,是其丰富性的一个度量。
  • 对于更复杂或更丰富的假设,逼近误差往往较小,但代价是估计误差较大。
  • 这由图 4.1 说明。

图 4.1 描述估计误差(绿色)和近似误差(橙色)的图示。 在这里,假设存在一个最佳假设类别,使得 01924b36-62e2-7d6a-9feb-ac32232c9804_1_657_244_494_233_0.jpg

  • 模型选择包括选择,在近似误差和估计误差之间有利的权衡。
  • 然而,需要注意的是,近似误差是不可访问的,因为在一般情况下,确定所需的真实分布是未知的。
    • 即使在各种噪声假设下,估计近似误差也是困难的。
  • 相比之下,算法的估计误差,即在对样本进行训练后返回的假设的估计误差,有时可以使用下一节中展示的一般化界限来界定。