一个可以界定估计误差的标准算法是 经验风险最小化(ERM)。 ERM旨在最小化训练样本上的误差:

命题 4.1

对于任何样本,ERM 返回的假设以下不等式成立:

\begin{proof} 根据 的定义,对于任何,存在 使得 因此,使用 (因为 的定义)

根据算法的定义,我们可以写出

由于不等式对所有都成立,因此它暗示了以下内容:

这就完成了证明。 \end{proof}

  • ERM 的右侧界定
    • 可以通过上一章中介绍的一般化边界来用 Rademacher 复杂度、增长函数或 的 VC 维来界定。
    • 特别是,可以被 所界定。
  • ERM 的局限性
    • 具有有利的 Rademacher 复杂度时 (例如有限的 VC 维),对于足够大的样本,以高概率保证估计误差较小。
    • 然而,ERM 的性能通常非常差。
      • 因为算法忽视了假设集 的复杂性:在实践中,
        • 要么 不够复杂,这种情况下近似误差可能非常大,
        • 要么 非常丰富,这种情况下对估计误差的界定变得非常宽松。
    • 还有,确定 ERM 解在计算上是不可行的:
      • 例如,寻找在训练样本上误差最小的线性假设,作为空间维度的函数,是 NP 难的。