本节介绍了凸集和凸函数的概念。凸函数在学习和算法的设计和分析中扮演着重要的角色,部分原因是因为凸函数的局部最小值必然也是全局最小值。 因此,通过找到凸优化的局部最小值来学习假设的性质通常很清楚,而对于一些非凸优化问题,可能存在非常多的局部最小值,对于这些局部最小值,无法给出学习假设的明确特征。

定义 B.4 凸集

是凸的 位于 中,即

图 B. 1 凸函数(左)和凹函数(右)的示例。 注意,在凸函数上任意两点之间画的线段完全位于函数图形的上方,而在凹函数上任意两点之间画的线段完全位于函数图形的下方。 01928a40-c638-783b-803a-1bf2444d1c2b_1_464_257_895_343_0.jpg

下面的引理说明了几个保持凸性的凸集上的运算。这些运算对于证明本节中的几个后续结果将非常有用。

引理B.5 保持集合凸性的运算

集合保持凸性:

  • 为任意集合族,其中对于所有 ,集合 是凸的。那么这些集合的交集 也是凸的。
  • 为凸集,那么它们的和 (当定义时)是凸的。
  • 为凸集,那么它们的笛卡尔积 也是凸的。
  • 任意凸集 的投影也是凸的。

证明:

第一个性质成立,因为对于任意的 和任意的 ,由于 的凸性,我们有 对于任意的 成立。

第二个性质成立,因为对于任意的 我们有 ,这是由于

第三个性质成立,因为对于 我们有 ,其中成员资格成立是由于假设 是凸的。

最后,第四个性质成立,因为对于任意将凸集 分解为投影 的情况,使得 ,必然有 是凸的。如果 是空的,那么结果显然成立。否则,固定一个元素 ,那么对于任意的 和任意的 ,我们有 ,这意味着 。由于 是任意选择的,这一事实对于 的任何投影都成立。

注意,许多集合运算可能不会保持凸性。考虑 上的不相交区间的并集,其中 。显然 是凸的,然而我们有

定义 B.6 凸包

一个点集 的凸包 conv(X) 是包含 的最小凸集,也可以等价地定义如下:

令 Epi 表示函数 的上图形,即位于其图形上方的点集:

图 B.2 所有凸函数满足的一阶性质的图示。 01928a40-c638-783b-803a-1bf2444d1c2b_2_545_255_712_530_0.jpg

定义 B.7 凸函数

为一个凸集。如果函数 的上图形 Epi 是一个凸集,或者等价地,对于所有的

在不等式 (B.2) 对于所有 严格成立时,被称为严格凸。当 是(严格)凸时, 被称为(严格)凹。图 B.1 展示了凸和凹函数的简单示例。凸函数也可以用其一阶或二阶微分来表征。

定理 B.8

是一个可微函数,那么 是凸的当且仅当 是凸的,并且以下不等式成立:

性质 (B.3) 由图 B.2 说明:对于凸函数,其在 处的切平面总是位于图形下方。

定理 B.9

是一个二阶可微函数,那么 是凸的当且仅当 是凸的且其 Hessian 矩阵是半正定的:

请记住,一个对称矩阵是半正定的当且仅当它的所有特征值都是非负的。进一步注意,当 是标量时,该定理表明 是凸的当且仅当其二阶导数总是非负的,即对于所有

示例 B.10(线性函数)

任何线性函数 既凸又凹,因为根据线性定义,方程 (B.2) 对于 都以等式形式成立。

示例 B.11(二次函数)

定义在 上的函数 是凸的,因为它是二阶可微的且对于所有

示例 B.12(范数)

任何在凸集 上定义的范数 都是凸的,因为根据三角不等式和范数的齐次性质,对于所有 ,我们可以写出

示例 B.13(最大函数)

定义在所有 上的最大函数 是凸的。对于所有 ,由于最大值的次可加性,我们可以写出

证明函数的凸性或凹性的一个有用方法是利用复合规则。为了简化表述,我们将假设函数具有二阶可导性,尽管即使没有这个假设,结果也可以被证明。

引理 B.14(凸/凹函数的复合) 是二阶可导的函数,对于所有 ,定义 。那么以下蕴含关系是有效的:

  • 是凸的且非递减,并且 是凸的 是凸的。

  • 是凸的且非递增,并且 是凹的 是凸的。

  • 是凹的且非递减,并且 是凹的 是凹的。

  • 是凹的且非递增,并且 是凸的 是凹的。

证明:我们限制在 上,因为这足以证明沿着穿过定义域的所有任意直线的凸性(凹性)。现在,考虑 的二阶导数:

注意,如果 是凸的且单调不减,那么我们有 。此外,如果 是凸的,我们也有 ,并且可以得出 ,这证明了第一个陈述。其余的陈述以类似的方式证明。

示例 B.15(函数的复合)之前的引理显示了以下复合函数的凸性或凹性:

  • 如果 是凸的,那么 是凸的。

  • 任何平方范数 都是凸的。

  • 对于所有 ,函数 是凹的。

下面的两个引理给出了另外两种保持凸性的操作的例子。

引理 B.16(凸函数的点态上确界或最大值) - ily 的凸函数,定义在凸集 上。那么,它们的点态上确界 对于所有 通过 定义(如果 ,则是它们的点态最大值)是凸函数。

证明:观察到 ,因此作为一个凸集的交集,它是凸的。

示例 B.17(凸函数的点态上确界) 引理特别显示了以下函数的凸性:

  • 一个分段线性函数 对于所有 通过 定义,作为仿射(因此是凸的)函数的点态最大值是凸的。

  • 最大特征值 是对称矩阵集合 上的凸函数,因为对称矩阵的集合是凸的,并且因为 被定义为线性(因此是凸的)函数 的上确界。

  • 更一般地,令 表示对称 矩阵 的顶部 特征值。那么,通过类似的论证, 是一个凸函数,因为 ,其中 的正交归一基。

  • 利用之前的性质,以及 中是线性的这一事实,也表明 是凹函数。

引理 B.18(部分下确界)令 为定义在凸集 上的凸函数,并且令 为一个凸集,使得 非空。那么, 是一个凸集,并且对于所有 定义的函数 是凸的。

证明:首先注意到凸集 的交集是凸的。因此, 是凸的,因为它是凸集 上的投影。

属于 。根据 的定义,对于任意 ,存在 使得 ,使得 成立。那么,对于任意

由于不等式对所有 都成立,它暗示了

这完成了证明。

示例 B.19 引理特别表明,在任意范数向量空间中,到凸集 的距离是 的凸函数,因为对于任意范数 上是联合凸的。

以下是在各种情境中应用的一个有用的不等式。它实际上是凸性定义的直接推论。

定理B.20(Jensen不等式) 是一个随机变量,其在非空凸集 中取值,并且具有有限的期望 ,以及 是定义在 上的可测凸函数。那么, 中是有限的,并且以下不等式成立:

证明:我们给出证明的概要,该证明基本上遵循凸性的定义。注意,对于 中任意有限个元素 和任意正实数 使得 ,我们有

这直接从凸性的定义通过归纳法得出。由于 可以解释为概率,这立即证明了对于由 定义的有限支撑的任意分布的不等式:

将此扩展到任意分布可以通过 在任意开集上的连续性来证明,这种连续性由 的凸性保证,并且具有有限支撑的分布在所有概率测度族中是弱密集的。