本节介绍了泛化界限,为 SVM 算法提供了强有力的理论依据。
回顾一下,R N 中超平面或线性假设族的 VC 维数是 N + 1 。因此,将推论 3.19 中的 VC 维数界限(3.29)应用于这个假设集,得到以下结果:对于任意 δ > 0 ,以至少 1 − δ 的概率,对于任意 h ∈ H ,
R ( h ) ≤ R S ( h ) + m 2 ( N + 1 ) log N + 1 e m + 2 m log δ 1 . ( 5.36 )
当特征空间的维数 N 与样本大小 m 相比很大时,这个界限是不明确的。值得注意的是,本节中呈现的学习保证与维数 N 无关,因此无论其值如何都成立。
我们即将提出的保证适用于实值函数,例如由SVMs返回的函数 x ↦ w ⋅ x + b ,与返回+1或-1的分类函数不同,例如 x ↦ sgn ( w ⋅ x + b ) 。它们基于置信边距的概念。实值函数 h 在标记为 y 的点 x 上的置信边距是量 y h ( x ) 。因此,当 y h ( x ) > 0 , h 正确分类 x 时,我们将 ∣ h ( x ) ∣ 的大小解释为 h 所做预测的置信度。置信边距的概念与几何边距不同,且不需要线性可分性的假设。但是,在可分的情况下,这两个概念如下相关:对于具有几何边距 ρ geom 的 h : x ↦ w ⋅ x + b ,训练样本上任何标记为 y 的点 x 的置信边距至少为 ρ geom ∥ w ∥ ,即 ∣ y h ( x ) ∣ ≥ ρ geom ∥ w ∥ 。
鉴于置信边距的定义,对于任何参数 ρ > 0 ,我们将定义一个 ρ -边距损失函数,该函数在错误分类点 x ( y h ( x ) ≤ 0 ) 时,与零一损失一样,对 h 进行惩罚,其代价为1,但是如果 h 正确分类 x 且置信度小于或等于 ρ ( y h ( x ) ≤ ρ ) 时,也会(线性地)对 h 进行惩罚。本节主要基于边距的泛化界限,将以这个损失函数的形式呈现,该函数正式定义如下。
定义5.5(边距损失函数)对于任何 ρ > 0 ,ρ -边距损失是定义为所有 y , y ′ ∈ R 的函数 L ρ : R × R → R + ,通过 L ρ ( y , y ′ ) = Φ ρ ( y y ′ ) 来定义,且,
Φ ρ ( x ) = min ( 1 , max ( 0 , 1 − ρ x ) ) = ⎩ ⎨ ⎧ 1 1 − ρ x 0 if x ≤ 0 if 0 ≤ x ≤ ρ if ρ ≤ x
这个损失函数在图5.6中有所说明。参数 ρ > 0 可以被解释为对假设 h 所需求的置信边缘。经验边缘损失同样被定义为训练样本上的边缘损失。
定义5.6(经验边缘损失)G i v e n a s am pl e S = ( x 1 , … , x m ) an d a h y p o t h - 假设 h ,经验边缘损失定义为
R S , ρ ( h ) = m 1 i = 1 ∑ m Φ ρ ( y i h ( x i ) ) ( 5.37 )
注意,对于任何 i ∈ [ m ] , Φ ρ ( y i h ( x i ) ) ≤ 1 y i h ( x i ) ≤ ρ 。因此,经验边缘损失可以被以下方式上界:
R S , ρ ( h ) ≤ m 1 i = 1 ∑ m 1 y i h ( x i ) ≤ ρ . ( 5.38 )
图5.6
以红色表示的边缘损失,是相对于边缘参数 ρ = 0.7 定义的。
在所有接下来的结果中,经验边缘损失可以被这个上界替代,它有一个简单的解释:它是训练样本 S 中被错误分类或分类置信度小于 ρ 的点的比例。换句话说,上界是训练数据中边缘小于 ρ 的点的比例。这对应于图5.6中蓝色虚线表示的损失函数。
使用基于 Φ ρ 的损失函数而不是零一损失或图5.6中蓝色虚线定义的损失的一个关键好处是 Φ ρ 是 1/ ρ -Lipschitz连续的,因为函数斜率的绝对值最大为 1/ ρ 。以下引理将一个假设集 H 与此类Lipschitz函数复合后的经验Rademacher复杂性与 H 的经验Rademacher复杂性联系起来。它将被用于证明基于边缘的泛化界限。
定理 5.7(Talagrand 引理)设 Φ 1 , … , Φ m 为从 R 到 R 的 l-Lipschitz 函数,σ 1 , … , σ m 为 Rademacher 随机变量。那么,对于任何实值函数的假设集 H ,以下不等式成立:
m 1 E [ h ∈ H sup i = 1 ∑ m σ i ( Φ i ∘ h ) ( x i ) ) ] ≤ m l E [ h ∈ H sup i = 1 ∑ m σ i h ( x i ) ] = l ℜ S ( H ) .
特别地,如果 Φ i = Φ 对于所有 i ∈ [ m ] 成立,那么以下结论成立:
ℜ S ( Φ ∘ H ) ≤ l ℜ S ( H )
证明:首先我们固定一个样本 S = ( x 1 , … , x m ) ,然后,根据定义,
m 1 σ E [ h ∈ H sup i = 1 ∑ m σ i ( Φ m ∘ h ) ( x i ) ] = m 1 σ 1 , … , σ m − 1 E [ σ m E [ h ∈ H sup u m − 1 ( h ) + σ m ( Φ m ∘ h ) ( x m ) ] ] ,
其中 u m − 1 ( h ) = i = 1 ∑ m − 1 σ i ( Φ i ∘ h ) ( x i ) 。根据上确界的定义,对于任何
ϵ > 0 ,存在 h 1 , h 2 ∈ H 使得
u m − 1 ( h 1 ) + ( Φ m ∘ h 1 ) ( x m ) ≥ ( 1 − ϵ ) [ h ∈ H sup u m − 1 ( h ) + ( Φ m ∘ h ) ( x m ) ]
and u m − 1 ( h 2 ) − ( Φ m ∘ h 2 ) ( x m ) ≥ ( 1 − ϵ ) [ h ∈ H sup u m − 1 ( h ) − ( Φ m ∘ h ) ( x m ) ] .
因此,对于任何 ϵ > 0 ,根据 E σ m 的定义,
( 1 − ϵ ) σ m E [ h ∈ H sup u m − 1 ( h ) + σ m ( Φ m ∘ h ) ( x m ) ]
= ( 1 − ϵ ) [ 2 1 h ∈ H sup [ u m − 1 ( h ) + ( Φ m ∘ h ) ( x m ) ] + 2 1 [ h ∈ H sup u m − 1 ( h ) − ( Φ m ∘ h ) ( x m ) ] ]
≤ 2 1 [ u m − 1 ( h 1 ) + ( Φ m ∘ h 1 ) ( x m ) ] + 2 1 [ u m − 1 ( h 2 ) − ( Φ m ∘ h 2 ) ( x m ) ] .
设 s = sgn ( h 1 ( x m ) − h 2 ( x m ) ) 。那么,前一个不等式意味着
( 1 − ϵ ) σ m E [ h ∈ H sup u m − 1 ( h ) + σ m ( Φ m ∘ h ) ( x m ) ]
≤ 2 1 [ u m − 1 ( h 1 ) + u m − 1 ( h 2 ) + s l ( h 1 ( x m ) − h 2 ( x m ) ) ] (Lipschitz property)
= 2 1 [ u m − 1 ( h 1 ) + s l h 1 ( x m ) ] + 2 1 [ u m − 1 ( h 2 ) − s l h 2 ( x m ) ] (rearranging)
≤ 2 1 h ∈ H sup [ u m − 1 ( h ) + s l h ( x m ) ] + 2 1 h ∈ H sup [ u m − 1 ( h ) − s l h ( x m ) ] (definition of sup)
= σ m E [ h ∈ H sup u m − 1 ( h ) + σ m lh ( x m ) ] . (definition of σ m E )
由于不等式对于所有 ϵ > 0 都成立,我们有
σ m E [ h ∈ H sup u m − 1 ( h ) + σ m ( Φ m ∘ h ) ( x m ) ] ≤ σ m E [ h ∈ H sup u m − 1 ( h ) + σ m lh ( x m ) ] .
对所有其他 σ i ( i = m ) 以相同的方式进行证明,得证引理。
下面是一个基于边界的通用泛化界限,它将被用于几个算法的分析中。
定理 5.8(二分类的边界界限)L e t H b e a se t o f re a l - v a l u e d f u n c - tions。固定 ρ > 0 ,那么,对于任何 δ > 0 ,以至少 1 − δ 的概率,以下对于所有 h ∈ H 成立:
R ( h ) ≤ R S , ρ ( h ) + ρ 2 ℜ m ( H ) + 2 m log δ 1 ( 5.39 )
R ( h ) ≤ R S , ρ ( h ) + ρ 2 ℜ S ( H ) + 3 2 m log δ 2 . ( 5.40 )
证明:设 H = { z = ( x , y ) ↦ y h ( x ) : h ∈ H } 。考虑取值在 [ 0 , 1 ] 中的函数族:
H = { Φ ρ ∘ f : f ∈ H }
根据定理 3.3,以至少 1 − δ 的概率,对于所有 g ∈ H ,
E [ g ( z ) ] ≤ m 1 i = 1 ∑ m g ( z i ) + 2 ℜ m ( H ) + 2 m log δ 1 ,
因此,对于所有 h ∈ H ,
E [ Φ ρ ( y h ( x ) ) ] ≤ R S , ρ ( h ) + 2 ℜ m ( Φ ρ ∘ H ) + 2 m log δ 1 .
由于 1 u ≤ 0 ≤ Φ ρ ( u ) 对于所有 u ∈ R 成立,我们有 R ( h ) = E [ 1 y h ( x ) ≤ 0 ] ≤ E [ Φ ρ ( y h ( x ) ) ] ,因此
R ( h ) ≤ R S , ρ ( h ) + 2 ℜ m ( Φ ρ ∘ H ) + 2 m log δ 1 .
由于 Φ ρ 是 1/ ρ -Lipschitz,根据引理 5.7,我们有 ℜ m ( Φ ρ ∘ H ) ≤ ρ 1 ℜ m ( H ) 并且 R m ( H ) 可以重写为以下形式:
ℜ m ( H ) = m 1 S , σ E [ h ∈ H sup i = 1 ∑ m σ i y i h ( x i ) ] = m 1 S , σ E [ h ∈ H sup i = 1 ∑ m σ i h ( x i ) ] = ℜ m ( H ) .
这证明了(5.39)。第二个不等式(5.40)也可以用定理3.3的第二个不等式(3.4)代替(3.3)以同样的方式推导出来。
定理5.8的泛化界限表明了一种权衡:ρ 的较大值会减少复杂度项(第二项),但往往会通过要求假设h 具有更高的置信边缘来增加经验边缘损失R S , ρ ( h ) (第一项)。因此,如果对于相对较大的ρ 值,h 的经验边缘损失仍然相对较小,那么h 将从对其泛化误差非常有利的保证中受益。对于定理5.8,边缘参数ρ 必须预先选择。但是,定理的界限可以推广到对所有ρ ∈ ( 0 , 1 ] 都成立,代价是增加一个适度额外的项m l o g l o g 2 ρ 2 ,如下定理所示(可以导出此定理的具有更好常数的版本,见练习5.2)。
定理5.9 设H 是一组实值函数。固定r > 0 。那么,对于任何δ > 0 ,以至少1 − δ 的概率,以下对所有h ∈ H 和ρ ∈ ( 0 , r ] 都成立:
R ( h ) ≤ R S , ρ ( h ) + ρ 4 ℜ m ( H ) + m log log 2 ρ 2 r + 2 m log δ 2 ( 5.41 )
R ( h ) ≤ R S , ρ ( h ) + ρ 4 ℜ S ( H ) + m log log 2 ρ 2 r + 3 2 m log δ 4 . ( 5.42 )
证明:考虑两个序列( ρ k ) k ≥ 1 和( ϵ k ) k ≥ 1 ,其中ϵ k ∈ ( 0 , 1 ] 。根据定理5.8,对于任何固定的k ≥ 1 ,
P [ h ∈ H sup R ( h ) − R S , ρ k ( h ) > ρ k 2 R m ( H ) + ϵ k ] ≤ exp ( − 2 m ϵ k 2 ) ( 5.43 )
选择ϵ k = ϵ + m l o g k ,那么,根据并集界限,以下成立:
P h ∈ H h ≥ 1 sup R ( h ) − R S , ρ k ( h ) − ρ k 2 R m ( H ) − ϵ k > 0
≤ k ≥ 1 ∑ exp ( − 2 m ϵ k 2 )
= k ≥ 1 ∑ exp [ − 2 m ( ϵ + ( log k ) / m ) 2 ]
≤ k ≥ 1 ∑ exp ( − 2 m ϵ 2 ) exp ( − 2 log k )
= ( k ≥ 1 ∑ 1/ k 2 ) exp ( − 2 m ϵ 2 )
= 6 π 2 exp ( − 2 m ϵ 2 ) ≤ 2 exp ( − 2 m ϵ 2 ) .
我们可以选择 ρ k = r / 2 k 。对于任何 ρ ∈ ( 0 , r ] ,存在 k ≥ 1 使得 ρ ∈ ( ρ k , ρ k − 1 ] ,并且 ρ 0 = r 。对于那个 k , ρ ≤ ρ k − 1 = 2 ρ k ,因此 1/ ρ k ≤ 2/ ρ 以及 log k = log log 2 ( r / ρ k ) ≤ log log 2 ( 2 r / ρ ) 。此外,对于任何 h ∈ H , R S , ρ k ( h ) ≤ R S , ρ ( h ) 。因此,以下不等式成立:
P h ∈ H ρ ∈ ( 0 , r ] sup R ( h ) − R S , ρ ( h ) − ρ 4 ℜ m ( H ) − m log log 2 ( 2 r / ρ ) − ϵ > 0 ≤ 2 exp ( − 2 m ϵ 2 ) ,
这证明了第一个陈述。第二个陈述可以用类似的方法证明。
具有界权向量的线性假设的Rademacher复杂度可以以下式界定。
定理5.10 设 S ⊆ { x :∥ x ∥≤ r } 是大小为 m 的样本,且 H = { x ↦ w ⋅ x :∥ w ∥≤ Λ } 。那么,H 的经验Rademacher复杂度可以以下式界定:
ℜ S ( H ) ≤ m r 2 Λ 2
证明:证明通过一系列不等式得出:
ℜ S ( H ) = m 1 σ E [ ∥ w ∥≤ Λ sup i = 1 ∑ m σ i w ⋅ x i ] = m 1 σ E [ ∥ w ∥≤ Λ sup w ⋅ i = 1 ∑ m σ i x i ]
≤ m Λ σ E [ i = 1 ∑ m σ i x i ] ≤ m Λ [ σ E [ i = 1 ∑ m σ i x i 2 ] ] 2 1
= m Λ [ σ E [ i , j = 1 ∑ m σ i σ j ( x i ⋅ x j ) ] ] 2 1 ≤ m Λ [ i = 1 ∑ m x i 2 ] 2 1 ≤ m Λ m r 2 = m r 2 Λ 2 ,
第一个不等式利用了Cauchy-Schwarz不等式和 ∥ w ∥ 的界限,第二个由Jensen不等式得出,第三个由 E [ σ i σ j ] = E [ σ i ] E [ σ j ] = 0 对于 i = j ,最后一个由 x i ≤ r 得出。
结合定理5.10和定理5.8直接得到以下具有界权向量的线性假设的一般边缘界限,呈现在推论5.11中。
推论5.11 设 H = { x ↦ w ⋅ x :∥ w ∥≤ Λ } 并且假设 X ⊆ { x :∥ x ∥≤ r } . 。固定 ρ > 0 ,那么,对于任何 δ > 0 ,在样本 S 大小为 m 的选择上,至少以 1 − δ 的概率,以下对于任何 h ∈ H 成立:
R ( h ) ≤ R S , ρ ( h ) + 2 m r 2 Λ 2 / ρ 2 + 2 m log δ 1 . ( 5.44 )
与定理5.8一样,这个推论的界限可以通过结合定理5.10和定理5.9,以增加一个额外项 m l o g l o g 2 ρ 2 的代价,推广到对所有 ρ ∈ ( 0 , 1 ] 一致成立。
线性假设的这个泛化界限非常引人注目,因为它不直接依赖于特征空间的维度,而只依赖于边界。它表明,当 ρ / ( r Λ ) 较大(第二项较小)且经验边界损失相对较小(第一项)时,可以取得小的泛化误差。后者发生在只有少数点被错误分类或者虽然分类正确但边界小于 ρ 的情况下。当训练样本线性可分时,对于具有几何边界 ρ geom 的线性假设和置信边界参数的选择 ρ = ρ geom ,经验边界损失项为零。因此,如果 ρ geom 相对较大,这为相应线性假设的泛化误差提供了强有力的保证。
保障不明确依赖于特征空间的维度这一事实可能令人惊讶,并且似乎与定理3.20和3.23的VC维数下界相矛盾。那些下界表明,对于任何学习算法 A ,都存在一个使算法返回的假设误差为 Ω ( d / m ) 的不良分布,且概率非零。然而,推论的界限并没有排除这种不良情况:对于这样的不良分布,即使边界 ρ 相对较小,经验边界损失也会很大,因此推论的界限在这种情况下会比较宽松。
因此,在某种意义上,推论的学习保障取决于良好边界值 ρ 的期望:如果存在一个相对较大的边界值 ρ > 0 ,使得经验边界损失较小,那么推论将保证小的泛化误差。这种有利的边界情况依赖于分布:尽管学习界限与分布无关,但良好边界的存在实际上是与分布相关的。在应用中,有利的边界似乎相对频繁出现。
推论的界限为支持最大化边缘算法(如支持向量机)提供了强有力的证明。选择 Λ = 1 ,通过对推论5.11的泛化到一个关于 ρ ∈ ( 0 , r ] 的均匀界限,对于任何 δ > 0 ,在至少 1 − δ 的概率下,以下对所有 h ∈ { x ↦ w ⋅ x :∥ w ∥≤ 1 } 和 ρ ∈ ( 0 , r ] 都成立:
R ( h ) ≤ R S , ρ ( h ) + 4 m r 2 / ρ 2 + m log log 2 ρ 2 r + 2 m log δ 2 .
不等式对于 ρ 大于 r 的情况也显然成立,因为在这种情况下,根据柯西-施瓦茨不等式,对于任何 w 且 ∥ w ∥≤ 1 ,我们有 y i ( w ⋅ x i ) ≤ r ≤ ρ 并且 R S , ρ ( h ) 对所有 h 都等于一。
现在,对于任何 ρ > 0 ,ρ -边缘损失函数被 ρ -折页损失所上界:
∀ u ∈ R , Φ ρ ( u ) = min ( 1 , max ( 0 , 1 − ρ u ) ) ≤ max ( 0 , 1 − ρ u ) . ( 5.45 )
因此,在至少 1 − δ 的概率下,以下对所有 h ∈ { x ↦ w 、x :∥ w ∥≤ 1 } 和所有 ρ > 0 都成立:
R ( h ) ≤ m 1 i = 1 ∑ m max ( 0 , 1 − ρ y i ( w ⋅ x i ) ) + 4 m r 2 / ρ 2 + m log log 2 ρ 2 r + 2 m log δ 2 .
由于任何 ρ > 0 , h / ρ 承认与 h 相同的泛化误差,在至少 1 − δ 的概率下,以下对所有 h ∈ { x ↦ w ⋅ x :∥ w ∥≤ 1/ ρ } 和所有 ρ > 0 都成立:
R ( h ) ≤ m 1 i = 1 ∑ m max ( 0 , 1 − y i ( w ⋅ x i ) ) + 4 m r 2 / ρ 2 + m log log 2 ρ 2 r + 2 m log δ 2 . ( 5.46 )
这个不等式可以用来导出一个算法,该算法选择 w 和 ρ > 0 以最小化右边。关于 ρ 的最小化不会导致一个凸优化,并且依赖于影响第二项和第三项的理论常数因子,这可能不是最优的。因此,相反,ρ 被留作算法的一个自由参数,通常通过交叉验证来确定。
现在,由于右边只有第一项依赖于 w ,对于任何 ρ > 0 ,界限建议选择 w 作为以下优化问题的解:
∥ w ∥ 2 ≤ ρ 2 1 min m 1 i = 1 ∑ m max ( 0 , 1 − y i ( w ⋅ x i ) ) . ( 5.47 )
引入拉格朗日变量 λ ≥ 0 ,优化问题可以等价地写为
w min λ ∥ w ∥ 2 + m 1 i = 1 ∑ m max ( 0 , 1 − y i ( w ⋅ x i ) ) . ( 5.48 )
由于对于(5.47)约束中任意选择的 ρ ,在(5.48)公式中存在一个等价的对偶变量 λ ,它实现了相同的最优 w , λ 可以通过交叉验证自由选择。 5 得到的算法与支持向量机(SVMs)完全一致。请注意,另一种目标函数以及相应的算法将基于经验边缘损失而不是合页损失。然而,合页损失的优势在于它是凸的,而边缘损失则不是。
如前所述,刚刚讨论的界限并不直接依赖于特征空间的维度,而是在给定的有利边缘时保证良好的泛化。因此,它们建议在非常高维的空间中寻找大边缘分离超平面。鉴于SVMs对偶优化问题的形式,确定优化问题的解并将其用于预测都需要在该空间中计算许多内积。对于非常高维的空间,这些内积的计算可能会变得非常昂贵。下一章提供了这个问题的解决方案,该方案进一步将SVMs推广到非向量输入空间。