5.2.3 对偶优化问题

为了推导约束优化问题 (5.7) 的对偶形式，我们将 $w$ 的定义代入拉格朗日函数，该定义涉及对偶变量，如(5.9)所示，并应用约束(5.10)。这得到

L = - \frac{1}{2} i, j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) \frac{1}{2} i = 1 \sum m α_{i} y_{i} x_{i}^{2} - i, j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - 0 i = 1 \sum m α_{i} y_{i} b + i = 1 \sum m α_{i}, (5.12)

这简化为

L = i = 1 \sum m α_{i} - \frac{1}{2} i, j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) . (5.13)

这导致以下可分情况下SVM的对偶优化问题:

对偶优化问题 (5.14)

$α max i = 1 \sum m α_{i} - \frac{1}{2} i, j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) (5.14)$
subject to:
$α_{i} \geq 0 \land i = 1 \sum m α_{i} y_{i} = 0, \forall i \in [m] .$

目标函数 $G : α \mapsto i = 1 \sum m α_{i} - \frac{1}{2} i, j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j})$ 是无限可微的。其Hessian矩阵由 $\nabla^{2} G = - A$ 给出，其中 $A = (y_{i} x_{i} \cdot y_{j} x_{j})_{ij}$ 。 $A$ 是与向量 $y_{1} x_{1}, \dots, y_{m} x_{m}$ 相关的格拉姆矩阵，因此是半正定的(参见第A.2.3节)，这表明 $\nabla^{2} G ≼ 0$ 且 $G$ 是一个凹函数。由于约束是仿射的和凸的，对偶优化问题 (5.14) 是一个凸优化问题。由于 $G$ 是 $α$ 的二次函数，这个对偶优化问题也是一个二次规划问题，正如原优化问题一样，再次可以使用通用和专门的二次规划求解器来获得解 (参见练习5.4，了解关于SMO算法的详细信息，该算法通常用于在更一般的非可分设置中解决SVM问题的对偶形式)。

此外，由于约束是仿射的，它们是合格的，强对偶性成立(见附录B)。因此，原问题和对偶问题是等价的，即对偶问题(5.14)的解 $α$ 可以直接用来通过方程(5.9)确定SVM返回的假设:

h (x) = sgn (w \cdot x + b) = sgn (i = 1 \sum m α_{i} y_{i} (x_{i} \cdot x) + b) . (5.15)

由于支持向量位于边缘超平面上，对于任意支持向量 $x_{i}$ , $w \cdot x_{i} + b = y_{i}$ ，因此 $b$ 可以通过以下方式获得:

b = y_{i} - j = 1 \sum m α_{j} y_{j} (x_{j} \cdot x_{i}) (5.16)

对偶优化问题(5.14)以及表达式(5.15)和(5.16)揭示了SVM的一个重要性质:

假设解只依赖于向量之间的内积，而不是直接依赖于向量本身。

这个观察是关键，其重要性将在第6章中变得清晰，在那里我们引入了核方法。

方程(5.16)现在可以用来推导几何边缘 $ρ$ 关于 $α$ 的简单表达式。由于(5.16)对于所有 $i$ 成立，且 $α_{i} \neq = 0$ ，将两边乘以 $α_{i} y_{i}$ 并求和得到:

i = 1 \sum m α_{i} y_{i} b = i = 1 \sum m α_{i} y_{i}^{2} - i, j = 1 \sum m α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) . (5.17)

利用 $y_{i}^{2} = 1$ 的事实以及方程(5.9)，然后得到:

0 = i = 1 \sum m α_{i} - ∥ w ∥^{2} (5.18)

注意到 $α_{i} \geq 0$ ，我们得到边缘 $ρ$ 关于以下表达式的关于 $α$ 的 $L_{1}$ 范数形式

ρ^{2} = \frac{1}{∥ w ∥ _{2}^{2}} = \frac{1}{i = 1 \sum m α _{i}} = \frac{1}{∥ α ∥ _{1}} . (5.19)

Youliang Zhong

Backlinks

Graph View

5.2.3 对偶优化问题