B.4 Fenchel 对偶性
在本节中,我们提出了一个关于凸优化或凸分析的替代理论,其中考虑的函数 可能是不可微的并取无穷大值。
在本节中,集合 表示一个内积为 的希尔伯特空间。然而,所呈现的结果可以直接推广到巴拿赫空间的情况。我们考虑取值在 中的函数。函数 的定义域定义为集合
我们扩展了凸性的定义,并说 是凸的,如果它在 上是凸的,即对于所有 和所有 ,
对于所有 ,其中 和 。如果一个凸函数取值在 中,并且不均匀等于 ,则称其为正则的。当其上确界闭合时,称其为闭函数。
B.4.1 次梯度
定义 B. 31 设 为一个凸函数。那么,向量 是 在点 处的次梯度,如果对于所有 ,以下不等式成立:
所有在 处的次梯度集合称为 在 处的次微分,并表示为 ,其中 对于 。
因此, 是 处的次梯度,当且仅当通过点 的法向量为 的超平面位于 的图形下方,即当它支撑 的图形时。图 14.1 描述了这些定义。
以下引理表明,如果 在 处可微,那么它的子微分在 处简化为其梯度。
引理 B.32 如果 在 处可微,那么 。
证明:显然,梯度 在 处总是一个子梯度。现在,设 在 中。那么,根据子梯度的定义,对于任何 ,
一阶泰勒级数展开给出
考虑到这一点,第一个不等式可以重写为
这意味着 和 。
命题 B.33 设 是一个适当的函数。那么, 是 的全局最小化子当且仅当 包含 0。
证明:由于 是适当的,如果 是最小化子,那么 不能是 。因此 必须在 中(因此 不定义为空)。现在, 是全局最小化子当且仅当对于所有 , ,即当且仅当 0 是 在 处的子梯度。
B.4.2 核心
集合 的核心用 core( ) 表示,并定义如下:
因此,对于 ,对于任何方向 在 中, 足够小。基于这个定义,核心 显然包含 的内部,即 int 。
命题B.34 设 是一个凸函数。如果存在 使得 ,那么 对于所有 。
证明:设 在 中。由于 在核心 中,存在 使得 在 中,即满足 。由于 ,根据凸性,以下成立
对于所有 。
这意味着 ,这完成了证明。
下一个结果的证明留给作为练习(练习B.3)。
命题B.35 设 是一个凸函数。那么, 在任何 处都存在次微分。
B.4.3 伴随函数
定义B.36(伴随函数)设 是一个 ,函数 的Fenchel伴随是一个定义为 的函数
注意到 是凸函数 的点态上确界,因此是凸的。另外,如果存在 使得 ,那么 。伴随关系是逆序的:对于任何 和 ,如果 ,那么 。同样,如果 是闭的适当凸集,那么 。
图B.3说明了伴随函数的定义。如图所示,伴随函数对应于函数的图在支撑超平面及其交点方面的对偶描述。
图B.3
Illustration of the conjugate of a function . Given is the point at which the distance between the hyperplane of equation with normal (slope in dimension one) and the plot of is the largest. This largest distance is equal to . The parallel hyperplane with normal and passing through the point is shown. This is a supporting hyperplane of the plot of . The point at which it intercepts the -axis (crossing point) has -coordinate .
Lemma B.37 (Conjugate of extended relative entropy) such that for all . Define by
Then, the conjugate function of is defined by
Proof: By definition of , for any , we can write
Fix and let be defined for all by
Then, the following holds for all :
Since and for , this shows that and concludes the proof.
Table B. 1 gives a series of other examples of functions and their conjugates. The following is an immediate consequence of the definition of the conjugate functions.
Table B. 1
Examples of functions and their conjugates .
$g\left( x\right)$ | $\operatorname{dom}\left( g\right)$ | ${g}^{ * }\left( y\right)$ | $\operatorname{dom}\left( {g}^{ * }\right)$ |
---|---|---|---|
$f\left( {ax}\right) \left( {a \neq 0}\right)$ | $x$ | ${f}^{ * }\left( \frac{y}{a}\right)$ | ${x}^{ * }$ |
$f\left( {x + b}\right)$ | $x$ | ${f}^{ * }\left( y\right) - \langle b, y\rangle$ | ${x}^{ * }$ |
${af}\left( x\right) \left( {a > 0}\right)$ | $x$ | $a{f}^{ * }\left( \frac{y}{a}\right)$ | ${x}^{ * }$ |
${\alpha x} + \beta$ | $\mathbb{R}$ | $\left\{ \begin{array}{ll} - \beta & \text{if }y = \alpha \\ + \infty & \text{otherwise} \end{array}\right.$ | $\mathbb{R}$ |
$\frac{{\left| x\right| }^{p}}{p}\left( {p > 1}\right)$ | $\mathbb{R}$ | $\frac{{\left| y\right| }^{q}}{q}\left( {\frac{1}{p} + \frac{1}{q} = 1}\right)$ | $\mathbb{R}$ |
$\frac{-{x}^{p}}{p}\left( {0 < p < 1}\right)$ | ${\mathbb{R}}_{ + }$ | $\frac{-{\left( -y\right) }^{q}}{q}\left( {\frac{1}{p} + \frac{1}{q} = 1}\right)$ | $\mathbb{R}$ _ |
$\sqrt{1 + {x}^{2}}$ | $\mathbb{R}$ | $- \sqrt{1 - {\left( y\right) }^{2}}$ | $\left\lbrack {-1,1}\right\rbrack$ |
$- \log \left( x\right)$ | ${\mathbb{R}}_{ + } \smallsetminus \{ 0\}$ | $- \left( {1 + \log \left( {-y}\right) }\right)$ | ${\mathbb{R}}_{ - } \smallsetminus \{ 0\}$ |
${e}^{x}$ | $\mathbb{R}$ | $\left\{ \begin{array}{ll} y\log \left( y\right) - y, & \text{if }y > 0 \\ 0, & \text{if }y = 0 \end{array}\right.$ | ${\mathbb{R}}_{ + }$ |
$\log \left( {1 + {e}^{x}}\right)$ | $\mathbb{R}$ | $y\log \left( y\right) + \left( {1 - y}\right) \log \left( {1 - y}\right) ,\;$ if $\;0 < y < 1$ 0 , if $y = 0,1$ | $\left\lbrack {0,1}\right\rbrack$ |
$- \log \left( {1 - {e}^{x}}\right)$ | $\mathbb{R}$ | $y\log \left( y\right) - \left( {1 + y}\right) \log \left( {1 + y}\right) ,\;$ if $\;y > 0$ if $y = 0$ | ${\mathbb{R}}_{ + }$ |
Proposition B.38 (Fenchel’s inequality) Let be a and any and , the following inequality holds:
等式成立当且仅当 是 在 处的子梯度。
我们将用 表示一个有界(或连续)线性映射 的伴随算子。此外,我们用 表示那些 点的集合,在这些点上 是有限且连续的。
定理 B.39(Fenchel 对偶定理)、 和 是两个凸函数, 是一个有界线性映射。那么,以下两个优化问题(Fenchel 问题)
满足弱对偶性 。如果进一步 和 满足条件
或者更强的条件
那么强对偶性成立,即 并且对偶问题中的上确界在 时达到。
证明:通过将 Fenchel 不等式(命题 B.38)应用于 和 ,对于任意的 和 ,以下不等式成立:
比较最左边的项和最右边的项得到
对最后一个不等式的左边关于 取下确界,对右边关于 取上确界得到 。
现在考虑函数 ,它对于所有 定义为
由于 是凸函数, 作为该函数一个变量的下确界也是凸的。 在 中当且仅当存在 使得 ,即存在 使得 且 ,即存在 使得 。因此,我们有 。
如果 ,那么显然强对偶性成立。否则, 。如果 ,那么 0 在 中且 。因此, 在 中。根据命题 B.34,由于 且 取值在 中。因此,根据命题 B.35, 在 0 处允许有一个子梯度 。根据 的定义,对于所有 和 ,
对 取下确界,对 取上确界,可以得到
这证明了 以及定义 的上确界在 处达到。
最后,假设 并且令 。那么, ,其中 和 。因此,我们有 。由于 在 处连续且 有限,对于任何 ,存在 使得对于所有 , 是有限的,因此 。因此,对于任何 ,这表明 。
为了说明这个定理,考虑 是恒等算子的情况。那么原优化问题就是 。图 B.4 在那种情况下说明了 Fenchel 对偶定理。原问题包括找到点 ,在该点上 和 的图像之间的距离最小,因为 。如图所示,在定理的条件下,这等同于寻找 ,在该点上 和 的共轭值之差,即差值 最大。