D.7 McDiarmid 不等式
下面是本节的主要结果。其证明利用了 Azuma 不等式。
定理 D.8(McDiarmid 不等式)LetX1,…,Xm∈Xmbeasetofm≥1independent 随机变量,并假设存在 c1,…,cm>0 使得 f:Xm→R 满足以下条件:
∣f(x1,…,xi,…,xm)−f(x1,…,xi′,…xm)∣≤ci,(D.15)
对于所有 i∈[m] 和任意点 x1,…,xm,xi′∈X 。设 f(S) 表示 f(X1,…,Xm) ,那么,对于所有 ϵ>0 ,以下不等式成立:
P[f(S)−E[f(S)]≥ϵ]≤expi=1∑mci2−2ϵ2(D.16)
P[f(S)−E[f(S)]≤−ϵ]≤expi=1∑mci2−2ϵ2.(D.17)
证明:定义一个随机变量序列 Vk,k∈[m] ,如下:V=f(S)−E[f(S)] ,V1=E[V∣X1]−E[V] ,对于 k>1 ,
Vk=E[V∣X1,…,Xk]−E[V∣X1,…,Xk−1].
注意到 V=k=1∑mVk。此外,随机变量 E[V∣X1,…,Xk] 是 X1,…,Xk 的一个函数。因此,给定 X1,…,Xk−1 并取其期望为:
E[E[V∣X1,…,Xk]∣X1,…,Xk−1]=E[V∣X1,…,Xk−1]
这意味着 E[Vk∣X1,…,Xk−1]=0。因此,序列 (Vk)k∈[m] 是一个马尔可夫差分序列。接下来,观察到,由于 E[f(S)] 是一个标量,Vk 可以表示如下:
Vk=E[f(S)∣X1,…,Xk]−E[f(S)∣X1,…,Xk−1].
因此,我们可以通过以下方式为 Vk 定义上界 Wk 和下界 Uk:
Wk=xsupE[f(S)∣X1,…,Xk−1,x]−E[f(S)∣X1,…,Xk−1]
Uk=xinfE[f(S)∣X1,…,Xk−1,x]−E[f(S)∣X1,…,Xk−1].
现在,根据 (D.15),对于任何 k∈[m],以下关系成立:
Wk−Uk=x,x′supE[f(S)∣X1,…,Xk−1,x]−E[f(S)∣X1,…,Xk−1,x′]≤ck,(D.18)
因此,Uk≤Vk≤Uk+ck。考虑到这些不等式,我们可以将阿祖玛不等式应用于 V=k=1∑mVk,这正好得出 (D.16) 和 (D.17)。
McDiarmid 不等式在本书中的多个证明中都有使用。它可以从稳定性的角度理解:如果改变其任何一个参数仅在有限的范围内影响 f,那么 f 相对于其均值的偏差可以被指数界定。还要注意,Hoeffding 不等式(定理 D.2)是 McDiarmid 不等式的一个特例,其中 f 定义为
f:(x1,…,xm)↦m1i=1∑mxi.