以下不等式在多种不同的背景下都很有用,包括在证明线性假设的经验 Rademacher 复杂度下界时(第六章)。
定理 D.9(Khintchine-Kahane 不等式)
设 (H,∥⋅∥) 是一个范数向量空间,且 x1,…,xm 是 H 的 m≥1 元素。设 σ=(σ1,…,σm)⊤ ,其中 σi 是在 {−1,+1} (Rademacher 变量)中取值的独立均匀随机变量。那么,以下不等式成立:
21σE[i=1∑mσixi2]≤(σE[i=1∑mσixi])2≤σE[i=1∑mσixi2].(D.20)
证明:第二个不等式是 x↦x2 的凸性和Jensen不等式(定理 B.20)的直接结果。
为了证明左侧不等式,首先注意到对于任何 β1,…,βm∈R ,展开乘积 i=1∏m(1+βi) 正好得到所有单项式 β1δ1…βmδm 的和,指数 δ1,…,δm 在 {0,1} 中。我们将使用 β1δ1⋯βmδm=βδ 和 ∣δ∣=i=1∑mδm 来表示任何 δ=(δ1,…,δm)∈{0,1}m 。基于此,对于任何 (α1,…,αm)∈Rm 和 t>0 ,以下等式成立:
t2i=1∏m(1+αi/t)=t2δ∈{0,1}m∑αδ/t∣δ∣=δ∈{0,1}m∑t2−∣δ∣αδ.
对两边关于 t 求导,并令 t=1 ,得到
2i=1∏m(1+αi)−j=1∑mαji=j∏(1+αi)=δ∈{0,1}m∑(2−∣δ∣)αδ.(D.21)
对于任何 σ∈{−1,+1}m ,设 Sσ 由 Sσ=sσ 定义,其中 sσ=i=1∑mσixi 。然后,令 αi=σiσi′ ,将 (D.21) 的两边乘以 SσSσ′ ,并对所有 σ,σ′∈ {−1,+1}m 求和,得到
σ,σ′∈{−1,+1}m∑2i=1∏m(1+σiσi′)−j=1∑mσjσj′i=j∏(1+σiσi′)SσSσ′
=σ,σ′∈{−1,+1}m∑δ∈{0,1}m∑(2−∣δ∣)σδσ′δSσSσ′
=δ∈{0,1}m∑(2−∣δ∣)σ,σ′∈{−1,+1}m∑σδσ′δSσSσ′(D.22)
=δ∈{0,1}m∑(2−∣δ∣)σ∈{−1,+1}m∑σδSσ2.
注意,右侧和中的 ∣δ∣≥2 项是非正的。带有 ∣δ∣=1 的项为零:因为 Sσ=S−σ ,在这种情况下我们有 σ∈{−1,+1}m∑σδˉSσ=0 。因此,右侧可以被 δ=0 项所界定,即 2(σ∈{−1,+1}m∑Sσ)2 。(D.22) 的左侧可以重写如下:
σ∈{−1,+1}m∑(2m+1−m2m−1)Sσ2+2m−1σ∈{−1,+1}mσ′∈B(σ,1)∑SσSσ′
=2mσ∈{−1,+1}m∑Sσ2+2m−1σ∈{−1,+1}m∑Sσσ′∈B(σ,1)∑Sσ′−(m−2)Sσ,(D.23)
其中 B(σ,1) 表示与 σ 在恰好一个坐标 j∈[m] 上不同的 σ′ 的集合,即与 σ 的汉明距离为1的 σ′ 的集合。注意,对于任何这样的 σ′,sσ−sσ′=2σjxj ,对于其中一个坐标 j∈[m] ,因此 σ′∈B(σ,1)∑sσ−sσ′=2sσ 。鉴于这一点,并使用三角不等式,我们可以写出
(m−2)Sσ=msσ−2sσ=σ′∈B(σ,1)∑sσ−σ′∈B(σ,1)∑sσ−sσ′
≤σ′∈B(σ,1)∑sσ′≤σ′∈B(σ,1)∑Sσ′.
因此,(D.23)的第二项是非负的,且(D.22)的左侧可以由第一项 2mσ∈{−1,+1}m∑Sσ2 从下面界定。将此与为(D.22)找到的上界相结合,得到
2mσ∈{−1,+1}m∑Sσ2≤2σ∈{−1,+1}m∑Sσ2.
双方除以 22m 并使用 P[σ]=1/2m 得到 Eσ[Sσ2]≤2(Eσ[Sσ])2 ,从而完成了证明。
在(D.20)的第一个不等式中出现的常数 1/2 是最优的。为了看到这一点,考虑 m=2 和 x1=x2=x 对于某个非零向量 x∈H 的情况。那么,第一个不等式左侧是 21ˉi=1∑m−∥xi∥2=∥x∥2 ,右侧是 (Eσ[∥(σ1+σ2)x∥])2= ∥x∥2(Eσ[∣σ1+σ2∣])2=∥x∥2.
注意,当范数 ∥⋅∥ 对应于内积,如在希尔伯特空间 H 的情况下,我们可以写出
σE[i=1∑mσixi2]=i,j=1∑mσE[σiσj(xi⋅xj)]=i,j=1∑mσE[σiσj](xi⋅xj)=i=1∑mxi2,
因为由随机变量 σi 的独立性,对于 i=j,Eσ[σiσj]=Eσ[σi]Eσ[σj]=0 。因此,(D.20)可以重写如下:
21i=1∑mxi2≤(E[i=1∑mσixi])2≤i=1∑mxi2(D.24)