本节介绍了凸集和凸函数的概念。凸函数在学习和算法的设计和分析中扮演着重要的角色,部分原因是因为凸函数的局部最小值必然也是全局最小值。 因此,通过找到凸优化的局部最小值来学习假设的性质通常很清楚,而对于一些非凸优化问题,可能存在非常多的局部最小值,对于这些局部最小值,无法给出学习假设的明确特征。
定义 B.4 凸集
是凸的 段 位于 中,即
图 B. 1 凸函数(左)和凹函数(右)的示例。 注意,在凸函数上任意两点之间画的线段完全位于函数图形的上方,而在凹函数上任意两点之间画的线段完全位于函数图形的下方。
下面的引理说明了几个保持凸性的凸集上的运算。这些运算对于证明本节中的几个后续结果将非常有用。
引理B.5 保持集合凸性的运算
集合保持凸性:
- 设 为任意集合族,其中对于所有 ,集合 是凸的。那么这些集合的交集 也是凸的。
- 设 和 为凸集,那么它们的和 (当定义时)是凸的。
- 设 和 为凸集,那么它们的笛卡尔积 也是凸的。
- 任意凸集 的投影也是凸的。
证明:
第一个性质成立,因为对于任意的 和任意的 ,由于 的凸性,我们有 对于任意的 成立。
第二个性质成立,因为对于任意的 我们有 ,这是由于 和 。
第三个性质成立,因为对于 我们有 ,其中成员资格成立是由于假设 和 是凸的。
最后,第四个性质成立,因为对于任意将凸集 分解为投影 和 的情况,使得 ,必然有 是凸的。如果 是空的,那么结果显然成立。否则,固定一个元素 ,那么对于任意的 和任意的 ,我们有 ,这意味着 。由于 是任意选择的,这一事实对于 的任何投影都成立。
注意,许多集合运算可能不会保持凸性。考虑 上的不相交区间的并集,其中 。显然 和 是凸的,然而我们有 。
定义 B.6 凸包
一个点集 的凸包 conv(X) 是包含 的最小凸集,也可以等价地定义如下:
令 Epi 表示函数 的上图形,即位于其图形上方的点集: 。
图 B.2 所有凸函数满足的一阶性质的图示。
定义 B.7 凸函数
令 为一个凸集。如果函数 的上图形 Epi 是一个凸集,或者等价地,对于所有的 和 ,
在不等式 (B.2) 对于所有 和 严格成立时,被称为严格凸。当 是(严格)凸时, 被称为(严格)凹。图 B.1 展示了凸和凹函数的简单示例。凸函数也可以用其一阶或二阶微分来表征。
定理 B.8
设 是一个可微函数,那么 是凸的当且仅当 是凸的,并且以下不等式成立:
性质 (B.3) 由图 B.2 说明:对于凸函数,其在 处的切平面总是位于图形下方。
定理 B.9
设 是一个二阶可微函数,那么 是凸的当且仅当 是凸的且其 Hessian 矩阵是半正定的:
请记住,一个对称矩阵是半正定的当且仅当它的所有特征值都是非负的。进一步注意,当 是标量时,该定理表明 是凸的当且仅当其二阶导数总是非负的,即对于所有 。
示例 B.10(线性函数)
任何线性函数 既凸又凹,因为根据线性定义,方程 (B.2) 对于 和 都以等式形式成立。
示例 B.11(二次函数)
定义在 上的函数 是凸的,因为它是二阶可微的且对于所有 。
示例 B.12(范数)
任何在凸集 上定义的范数 都是凸的,因为根据三角不等式和范数的齐次性质,对于所有 ,我们可以写出
示例 B.13(最大函数)
定义在所有 上的最大函数 是凸的。对于所有 ,由于最大值的次可加性,我们可以写出
证明函数的凸性或凹性的一个有用方法是利用复合规则。为了简化表述,我们将假设函数具有二阶可导性,尽管即使没有这个假设,结果也可以被证明。
引理 B.14(凸/凹函数的复合) 是二阶可导的函数,对于所有 ,定义 。那么以下蕴含关系是有效的:
-
是凸的且非递减,并且 是凸的 是凸的。
-
是凸的且非递增,并且 是凹的 是凸的。
-
是凹的且非递减,并且 是凹的 是凹的。
-
是凹的且非递增,并且 是凸的 是凹的。
证明:我们限制在 上,因为这足以证明沿着穿过定义域的所有任意直线的凸性(凹性)。现在,考虑 的二阶导数:
注意,如果 是凸的且单调不减,那么我们有 和 。此外,如果 是凸的,我们也有 ,并且可以得出 ,这证明了第一个陈述。其余的陈述以类似的方式证明。
示例 B.15(函数的复合)之前的引理显示了以下复合函数的凸性或凹性:
-
如果 是凸的,那么 是凸的。
-
任何平方范数 都是凸的。
-
对于所有 ,函数 是凹的。
下面的两个引理给出了另外两种保持凸性的操作的例子。
引理 B.16(凸函数的点态上确界或最大值) - ily 的凸函数,定义在凸集 上。那么,它们的点态上确界 对于所有 通过 定义(如果 ,则是它们的点态最大值)是凸函数。
证明:观察到 ,因此作为一个凸集的交集,它是凸的。
示例 B.17(凸函数的点态上确界) 引理特别显示了以下函数的凸性:
-
一个分段线性函数 对于所有 通过 定义,作为仿射(因此是凸的)函数的点态最大值是凸的。
-
最大特征值 是对称矩阵集合 上的凸函数,因为对称矩阵的集合是凸的,并且因为 被定义为线性(因此是凸的)函数 的上确界。
-
更一般地,令 表示对称 矩阵 的顶部 特征值。那么,通过类似的论证, 是一个凸函数,因为 ,其中 是 的正交归一基。
-
利用之前的性质,以及 在 中是线性的这一事实,也表明 或 是凹函数。
引理 B.18(部分下确界)令 为定义在凸集 上的凸函数,并且令 为一个凸集,使得 非空。那么, 是一个凸集,并且对于所有 由 定义的函数 是凸的。
证明:首先注意到凸集 和 的交集是凸的。因此, 是凸的,因为它是凸集 在 上的投影。
令 和 属于 。根据 的定义,对于任意 ,存在 使得 ,使得 和 成立。那么,对于任意 ,
由于不等式对所有 都成立,它暗示了
这完成了证明。
示例 B.19 引理特别表明,在任意范数向量空间中,到凸集 的距离是 的凸函数,因为对于任意范数 , 在 和 上是联合凸的。
以下是在各种情境中应用的一个有用的不等式。它实际上是凸性定义的直接推论。
定理B.20(Jensen不等式) 是一个随机变量,其在非空凸集 中取值,并且具有有限的期望 ,以及 是定义在 上的可测凸函数。那么, 在 中是有限的,并且以下不等式成立:
证明:我们给出证明的概要,该证明基本上遵循凸性的定义。注意,对于 中任意有限个元素 和任意正实数 使得 ,我们有
这直接从凸性的定义通过归纳法得出。由于 可以解释为概率,这立即证明了对于由 定义的有限支撑的任意分布的不等式:
将此扩展到任意分布可以通过 在任意开集上的连续性来证明,这种连续性由 的凸性保证,并且具有有限支撑的分布在所有概率测度族中是弱密集的。