2.1 PAC模型的二Oracle变体。

假设正例和反例现在分别来自两个独立的分布 。对于一个准确度 ,学习算法必须找到一个假设 ,使得:

01917e5a-246e-7afb-b594-9077a1d7cfd5_24_852147.jpg

图2.5

(a) Gertrude的区域 。(b) 解题提示。

因此,假设必须在两个分布上都有很小的误差。令 为任意的概念类, 为任意的假设空间。令 分别表示恒等于0和恒等于1的函数。证明 在标准的(单Oracle)PAC模型中使用 有效PAC可学习当且仅当它在二Oracle PAC模型中使用 有效PAC可学习。

2.2 超矩形的PAC学习。

中的一个与坐标轴对齐的超矩形是一个形式为 的集合。 证明通过扩展 示例 2.4(学习轴对齐矩形)(learning axis-aligned rectangles) 中的证明,与坐标轴对齐的超矩形是PAC可学习的。

2.3 同心圆。

并考虑形式为 的概念集合,其中 为某个实数。证明这个类可以从大小为 的训练数据中 -PAC学习。

2.4 非同心圆。

并考虑形式为 的概念集合,其中某点 和实数 。格特鲁德是一位有抱负的机器学习研究员,她试图证明这类概念可以通过样本复杂性 实现 -PAC学习,但在证明中遇到了困难。她的想法是学习算法会选择与训练数据一致的最小圆。她在概念 的边缘绘制了三个区域 ,每个区域的概率为 (见图2.5(a))。她想要证明如果泛化误差大于或等于 ,那么训练数据必定遗漏了这些区域之一,因此这个事件发生的概率至多为 。你能告诉格特鲁德她的方法是否有效吗?(提示:你可能会希望在解决方案中使用图2.5(b))。

2.5 三角形。

具有正交基 ,并考虑由直角三角形 内的面积定义的概念集合,该三角形的两边平行于坐标轴, ,以及 对于某个正实数 。使用与本章中用于轴对齐矩形的类似方法,证明这个类别可以从大小为 的训练数据中 -PAC学习。(提示:你可能会考虑在解决方案中使用图2.6)。

01917e5a-246e-7afb-b594-9077a1d7cfd5_25_627137.jpg

图2.6

与坐标轴平行的直角三角形。

2.6 在噪声环境下的学习 - 矩形

在示例2.4中,我们展示了轴对齐矩形的概念类是PAC可学习的。现在考虑学习者接收的训练点受到以下噪声影响的情况:被标记为负的点不受噪声影响,但是一个正的训练点的标签以概率 随机翻转为负。学习者不知道噪声率 的确切值,但是提供了一个上限 给他,并带有 。证明返回包含正点最紧密矩形的算法在这种噪声下仍然可以PAC学习轴对齐矩形。为此,你可以按照以下步骤进行:

  1. 使用示例2.4中的相同符号,假设 。假设 。给出 错过区域 的概率上限,用 表示。
  2. 使用这个结果给出 的上限,用 表示,并通过给出样本复杂度界限来得出结论。

2.7 在噪声环境下的学习 - 一般情况。

在这个问题中,我们将寻求比前一个问题更一般的结果。我们考虑一个有限假设集 ,假设目标概念在 中,并采用以下噪声模型:学习者接收的训练点的标签以概率 随机改变。学习者不知道噪声率 的确切值,但是提供了一个上限 给他,并带有

(a) 对于任意 ,令 表示学习者收到的训练点的标签与 给定的标签不一致的概率。令 为目标假设,证明

(b) 更一般地,证明对于任意 ,其中 表示 的泛化误差。

(c) 在此及以下所有问题中固定 。使用前一个问题来证明如果 ,那么 ,其中

(d) 对于任意假设 和大小为 的样本 ,令 表示 中标签与 给定的标签不一致的点的比例。我们将考虑算法 ,在接收到 后返回具有最小不一致数的假设 (因此 是最小的)。为了证明 的 PAC 学习,我们将证明对于任意 ,如果 ,那么以高概率 。首先,证明对于任意 ,在至少 的概率下,对于 ,以下成立:

(e) 其次,证明对于任意 ,在至少 的概率下,对于 ,以下对于所有 成立:

(f) 最后,证明对于任意 ,在至少 的概率下,对于 ,以下对于所有 成立:

(提示:使用 并利用前一个问题来为这三个项设定下界)。

2.8 学习区间。

为概念类 ,即由闭区间 组成的概念类,给出一个 PAC 学习算法,其中

2.9 学习区间的并集。

为概念类 ,即由两个闭区间的并集组成的概念类,给出一个 PAC 学习算法,即 ,其中 。将你的结果扩展为推导出一个 PAC 学习算法,用于由 个闭区间组成的并集形成概念类 ,因此 ,其中 对于 。你的算法的时间和样本复杂度作为 的函数是什么?

2.10 一致性假设。

在本章中,我们证明了对于一个有限假设集 ,一个一致性学习算法 是一个 PAC 学习算法。在这里,我们考虑一个相反的问题。设 为一个有限的 标记点集。假设你被给定了一个 PAC 学习算法 。证明你可以使用 和一个有限的训练样本 ,以高概率在多项式时间内找到一个与 一致的假设 。(提示:你可以选择一个适当分布 上,并对 给出一个条件以使 一致。)

2.11 参议院法律。

对于重要问题,总统 Mouth 依赖于专家的建议。他从 专家的集合中选出一个合适的顾问。

(a) 假设法律以随机方式独立且相同地根据某个分布 提出并由一群未知的参议员决定。假设总统Mouth能够从 中找到并选择一位在过去 次法律投票中始终与多数人意见一致的专家参议员。请给出此类参议员错误预测未来法律全局投票的概率上界。在 置信水平下,这个上界的值是多少?

(b) 现在假设总统Mouth能够从 中找到并选择一位在过去 次法律投票中除 次以外始终与多数人意见一致的专家参议员。新的上界值是多少?

2.12 贝叶斯界。

为一个可数的假设集,其中的函数将 映射到 ,并设 为定义在 上的一个概率测度。这个概率测度表示了假设类的先验概率,即特定假设被学习算法选中的概率。使用霍夫丁不等式证明,对于任何 ,以至少 的概率,以下不等式成立:

将这个结果与不一致情况下有限假设集给出的界进行比较(提示:你可以在霍夫丁不等式中使用 作为置信参数)。

2.13 未知参数的学习。

在示例2.9中,我们展示了 -CNF 的概念类是PAC可学习的。然而,需要注意的是,学习算法将 作为输入。当 没有提供时,PAC学习是否仍然可能?更一般地,考虑一个概念类家族 ,其中 中大小至多 的概念集合。假设我们有一个PAC学习算法 ,当给定 时,可以用于学习任何 的概念类。

我们能否将 转换为不需要了解 的PAC学习算法 ?这是本问题的主要目标。

为此,我们首先引入一种以高概率测试假设 的方法。固定 ,并定义样本大小 。假设我们根据某个未知的分布 抽取了一个大小为 的独立同分布样本 。如果假设 上最多犯 个错误,则我们说该假设被接受;否则,被拒绝。因此, 被接受当且仅当

(a) 假设 。使用(乘法)切尔诺夫界来证明在这种情况下

(b) 假设 。使用(乘法)切尔诺夫界来证明在这种情况下

(c) 算法 定义如下:我们从 开始,在每一轮 中,我们猜测参数大小 。我们抽取一个大小为 (这取决于 )的样本 来测试当用大小为 的样本训练时,由 返回的假设 ,即 对于所需精度 、置信度 和大小 的样本复杂性(在此处我们忽略每个示例表示的大小)。如果接受 ,算法停止并返回 ,否则它进入下一轮迭代。证明如果在迭代 中,估计值 大于或等于 ,那么 被接受

(d) 证明 在经过 次迭代后不停止的概率最多为

(e) 证明对于 ,不等式 成立。

(f) 证明在至少 的概率下,算法 在最多 次迭代后停止,并返回一个误差不超过 的假设。

2.14

在这个练习中,我们将噪声的概念推广到任意损失函数 的情况。

  1. 验证以下在点 处噪声的定义:

在确定性场景中,噪声 的值是多少?这个定义是否与本章中对于二分类给出的定义相匹配? 2. 证明平均噪声与贝叶斯误差(由可测函数实现的最小损失)相一致。