我们现在推导出定义 SVM 解决方案的方程和优化问题。
fig 5.2 点在情况 和 下的几何间隔示例。
根据几何间隔的定义(也见 ^fig-5-2 ),分隔超平面的最大间隔 由以下公式给出
- 第二个等式源于这样一个事实:
- 由于样本是线性可分的,对于最大化对, 来说,必须对所有 非负。
- 现在,注意到最后一个表达式对于乘以正数标量是不变的。
- 因此,我们可以限制自己考虑那些使得 的。
- 第二个等式源于这样一个事实:
- 对于最大化对,的最小值是1。
^fig-5-3 展示了最大化(5.6)的解。除了最大间隔超平面外,它还显示了边缘超平面,这些是
fig 5.3 (5.6) 的最大间隔超平面解。 边际超平面在图中由虚线表示。
与分离超平面平行且通过负侧或正侧最近点的超平面。 由于它们与分离超平面平行,因此具有相同的法向量 。 此外,由于 对于最近点,边际超平面的方程为
由于最大化 等同于最小化 ,考虑到 (5.6),SVM 在可分情况下返回的 对是以下凸优化问题的解:
优化问题 (5.7)
subject to:
目标函数 是无限可微的。
- 它的梯度是
- 它的 Hessian 矩阵是单位矩阵
- 其特征值均为严格正数。
- 因此,
- 是严格凸的。
约束都由仿射函数 定义,因此是合格的。 因此,考虑到凸优化已知的结果 (详见 附录B),优化问题 (5.7) 具有唯一解,这是一个重要且有利的特点,并非所有学习算法都具备。
此外,由于目标函数是二次的,约束是仿射的,优化问题 (5.7) 实际上是二次规划(QP)的一个特例,
- QP 是优化领域中广泛研究的一类问题。
有许多商业和开源求解器可用于解决凸QP问题。 另外,受到SVM在经验上的成功及其丰富的理论基础的启发,已经开发了专门的方法来更有效地解决这个特定的凸QP问题,尤其是只有两个坐标的块坐标下降算法。