2.1 PAC模型的二Oracle变体。
假设正例和反例现在分别来自两个独立的分布 和 。对于一个准确度 ,学习算法必须找到一个假设 ,使得:
图2.5
(a) Gertrude的区域 。(b) 解题提示。
因此,假设必须在两个分布上都有很小的误差。令 为任意的概念类, 为任意的假设空间。令 和 分别表示恒等于0和恒等于1的函数。证明 在标准的(单Oracle)PAC模型中使用 有效PAC可学习当且仅当它在二Oracle PAC模型中使用 有效PAC可学习。
2.2 超矩形的PAC学习。
在 中的一个与坐标轴对齐的超矩形是一个形式为 的集合。 证明通过扩展 示例 2.4(学习轴对齐矩形)(learning axis-aligned rectangles) 中的证明,与坐标轴对齐的超矩形是PAC可学习的。
2.3 同心圆。
令 并考虑形式为 的概念集合,其中 为某个实数。证明这个类可以从大小为 的训练数据中 -PAC学习。
2.4 非同心圆。
设 并考虑形式为 的概念集合,其中某点 和实数 。格特鲁德是一位有抱负的机器学习研究员,她试图证明这类概念可以通过样本复杂性 实现 -PAC学习,但在证明中遇到了困难。她的想法是学习算法会选择与训练数据一致的最小圆。她在概念 的边缘绘制了三个区域 ,每个区域的概率为 (见图2.5(a))。她想要证明如果泛化误差大于或等于 ,那么训练数据必定遗漏了这些区域之一,因此这个事件发生的概率至多为 。你能告诉格特鲁德她的方法是否有效吗?(提示:你可能会希望在解决方案中使用图2.5(b))。
2.5 三角形。
设 具有正交基 ,并考虑由直角三角形 内的面积定义的概念集合,该三角形的两边平行于坐标轴, 和 ,以及 对于某个正实数 。使用与本章中用于轴对齐矩形的类似方法,证明这个类别可以从大小为 的训练数据中 -PAC学习。(提示:你可能会考虑在解决方案中使用图2.6)。
图2.6
与坐标轴平行的直角三角形。
2.6 在噪声环境下的学习 - 矩形
在示例2.4中,我们展示了轴对齐矩形的概念类是PAC可学习的。现在考虑学习者接收的训练点受到以下噪声影响的情况:被标记为负的点不受噪声影响,但是一个正的训练点的标签以概率 随机翻转为负。学习者不知道噪声率 的确切值,但是提供了一个上限 给他,并带有 。证明返回包含正点最紧密矩形的算法在这种噪声下仍然可以PAC学习轴对齐矩形。为此,你可以按照以下步骤进行:
- 使用示例2.4中的相同符号,假设 。假设 。给出 错过区域 的概率上限,用 和 表示。
- 使用这个结果给出 的上限,用 和 表示,并通过给出样本复杂度界限来得出结论。
2.7 在噪声环境下的学习 - 一般情况。
在这个问题中,我们将寻求比前一个问题更一般的结果。我们考虑一个有限假设集 ,假设目标概念在 中,并采用以下噪声模型:学习者接收的训练点的标签以概率 随机改变。学习者不知道噪声率 的确切值,但是提供了一个上限 给他,并带有 。
(a) 对于任意 ,令 表示学习者收到的训练点的标签与 给定的标签不一致的概率。令 为目标假设,证明 。
(b) 更一般地,证明对于任意 ,其中 表示 的泛化误差。
(c) 在此及以下所有问题中固定 。使用前一个问题来证明如果 ,那么 ,其中 。
(d) 对于任意假设 和大小为 的样本 ,令 表示 中标签与 给定的标签不一致的点的比例。我们将考虑算法 ,在接收到 后返回具有最小不一致数的假设 (因此 是最小的)。为了证明 的 PAC 学习,我们将证明对于任意 ,如果 ,那么以高概率 。首先,证明对于任意 ,在至少 的概率下,对于 ,以下成立:
(e) 其次,证明对于任意 ,在至少 的概率下,对于 ,以下对于所有 成立:
(f) 最后,证明对于任意 ,在至少 的概率下,对于 ,以下对于所有 且 成立:
(提示:使用 并利用前一个问题来为这三个项设定下界)。
2.8 学习区间。
为概念类 ,即由闭区间 组成的概念类,给出一个 PAC 学习算法,其中 。
2.9 学习区间的并集。
为概念类 ,即由两个闭区间的并集组成的概念类,给出一个 PAC 学习算法,即 ,其中 。将你的结果扩展为推导出一个 PAC 学习算法,用于由 个闭区间组成的并集形成概念类 ,因此 ,其中 对于 。你的算法的时间和样本复杂度作为 的函数是什么?
2.10 一致性假设。
在本章中,我们证明了对于一个有限假设集 ,一个一致性学习算法 是一个 PAC 学习算法。在这里,我们考虑一个相反的问题。设 为一个有限的 标记点集。假设你被给定了一个 PAC 学习算法 。证明你可以使用 和一个有限的训练样本 ,以高概率在多项式时间内找到一个与 一致的假设 。(提示:你可以选择一个适当分布 在 上,并对 给出一个条件以使 一致。)
2.11 参议院法律。
对于重要问题,总统 Mouth 依赖于专家的建议。他从 专家的集合中选出一个合适的顾问。
(a) 假设法律以随机方式独立且相同地根据某个分布 提出并由一群未知的参议员决定。假设总统Mouth能够从 中找到并选择一位在过去 次法律投票中始终与多数人意见一致的专家参议员。请给出此类参议员错误预测未来法律全局投票的概率上界。在 置信水平下,这个上界的值是多少?
(b) 现在假设总统Mouth能够从 中找到并选择一位在过去 次法律投票中除 次以外始终与多数人意见一致的专家参议员。新的上界值是多少?
2.12 贝叶斯界。
设 为一个可数的假设集,其中的函数将 映射到 ,并设 为定义在 上的一个概率测度。这个概率测度表示了假设类的先验概率,即特定假设被学习算法选中的概率。使用霍夫丁不等式证明,对于任何 ,以至少 的概率,以下不等式成立:
将这个结果与不一致情况下有限假设集给出的界进行比较(提示:你可以在霍夫丁不等式中使用 作为置信参数)。
2.13 未知参数的学习。
在示例2.9中,我们展示了 -CNF 的概念类是PAC可学习的。然而,需要注意的是,学习算法将 作为输入。当 没有提供时,PAC学习是否仍然可能?更一般地,考虑一个概念类家族 ,其中 是 中大小至多 的概念集合。假设我们有一个PAC学习算法 ,当给定 时,可以用于学习任何 的概念类。
我们能否将 转换为不需要了解 的PAC学习算法 ?这是本问题的主要目标。
为此,我们首先引入一种以高概率测试假设 的方法。固定 , ,并定义样本大小 为 。假设我们根据某个未知的分布 抽取了一个大小为 的独立同分布样本 。如果假设 在 上最多犯 个错误,则我们说该假设被接受;否则,被拒绝。因此, 被接受当且仅当 。
(a) 假设 。使用(乘法)切尔诺夫界来证明在这种情况下 。
(b) 假设 。使用(乘法)切尔诺夫界来证明在这种情况下 。
(c) 算法 定义如下:我们从 开始,在每一轮 中,我们猜测参数大小 为 。我们抽取一个大小为 (这取决于 )的样本 来测试当用大小为 的样本训练时,由 返回的假设 ,即 对于所需精度 、置信度 和大小 的样本复杂性(在此处我们忽略每个示例表示的大小)。如果接受 ,算法停止并返回 ,否则它进入下一轮迭代。证明如果在迭代 中,估计值 大于或等于 ,那么 被接受 。
(d) 证明 在经过 次迭代后不停止的概率最多为 。
(e) 证明对于 ,不等式 成立。
(f) 证明在至少 的概率下,算法 在最多 次迭代后停止,并返回一个误差不超过 的假设。
2.14
在这个练习中,我们将噪声的概念推广到任意损失函数 的情况。
- 验证以下在点 处噪声的定义:
在确定性场景中,噪声 的值是多少?这个定义是否与本章中对于二分类给出的定义相匹配? 2. 证明平均噪声与贝叶斯误差(由可测函数实现的最小损失)相一致。