5.1 软边缘超平面。用于软边缘超平面优化问题的松弛变量的函数形式为:。相反,我们可以使用,其中

(a)给出这个一般情况下的对偶问题。

(b)这种更一般的公式与标准设置相比如何?在的情况下,优化仍然是凸的吗?

5.2 更紧的Rademacher界。推导定理5.9的以下更紧版本界限:对于任意的 ,在至少 的概率下,对于所有的 ,以下成立:

对于任意的

5.3 加权重要性的支持向量机(SVM)。假设你希望使用SVM来解决一个学习问题,其中某些训练数据点比其他点更重要。更正式地说,假设每个训练点由一个三元组 组成,其中 是第 个点的重要性。重写原始SVM约束优化问题,使得错误标记一个点 的惩罚按优先级 缩放。然后将这个修改带到对偶解的推导中。

5.4 序贯最小优化(SMO)。SMO算法是一种优化算法,用于加速SVM的训练。SMO将一个(潜在的)大型二次规划(QP)优化问题简化为一系列只涉及两个拉格朗日乘子的优化。SMO减少了内存需求,绕过了数值QP优化的需要,并且易于实现。在这个问题中,我们将推导出在SVM问题的对偶形式中SMO算法的更新规则。

(a)假设我们只想优化方程(5.33)中的 。证明优化问题简化为

约束条件:

其中 对于

(b)将线性约束 代入 以获得一个新的目标函数 ,该函数仅依赖于 。证明使 最小化的 (在不考虑约束 的情况下)可以表示为

其中 .

(c) 证明

其中 是在 优化之前的拉格朗日乘数值(同样, 是偏移量之前的值)。

(d) 证明

(e) 对于 ,定义 的下界和上界。类似地,对于 ,定义 。SMO的更新规则涉及对 值的“剪辑”

即,

我们随后求解 ,以满足等式约束,从而得到 。为什么需要“剪辑”?在 的情况下, 是如何推导出来的?

5.5 SVMs 实践。

(a) 从以下地址下载并安装 libsvm 软件库:

(b) 下载位于以下位置的 satimage 数据集:

将训练集和验证集合并为一个。从此我们将这个集合称为训练集。归一化训练和测试向量。

(c) 考虑二元分类问题,即区分类别6和其他数据点。使用结合多项式核的SVM(见第6章)来解决这个分类问题。为此,将训练数据随机分成十个大小相等的互不相交的集合。对于每个多项式度数 ,绘制平均交叉验证误差加上或减去一个标准差作为 的函数。让libsvm中多项式核的其他参数 保持默认值1。报告在验证集上测量的最佳折中常数 的值。

(d) 设 为之前找到的最佳对。将 固定为 。绘制十折交叉验证的训练和测试误差,作为 的函数得到的假设。绘制 的函数,得到支持向量的平均数量的图像。

(e) 有多少支持向量位于边缘超平面上?

(f) 在标准二分类问题中,正类和负类上的错误以相同的方式处理。然而,假设我们希望对负点上的错误(假阳性错误) 倍于正点上的错误进行惩罚。给出相应于以这种方式修改的SVM的对偶优化问题。

(g) 假设 是一个整数。展示如何在不编写任何额外代码的情况下使用libsvm找到刚刚描述的修改后SVM的解。

(h) 将修改后的SVM应用于之前研究过的分类任务,并与 的先前SVM结果进行比较。

5.6 稀疏SVM。可以提出两种支持SVM算法的论点:一种基于支持向量的稀疏性,另一种基于边缘的概念。假设我们不是选择最大化边缘,而是选择通过最小化 范数来最大化稀疏性,该范数定义了权重向量 的向量 ,对于某些 。首先,考虑 的情况。这给出了以下优化问题:

(a) 证明在 的非负约束下,该问题与SVM原优化问题的一个实例相一致。

(b) 推导 (5.50) 问题的对偶优化。

(c) 设置 将导致 更加稀疏。推导这种情况下的对偶优化。

5.7 标准超平面的 VC 维数。这个问题的目标是推导出标准超平面 VC 维数的上界,该上界不依赖于

特征空间的维度。设 。我们将证明集合的标准超平面的 VC 维数 验证

(a) 设 是一个可以被击碎的集合。证明对于所有的

(b) 使用标签的随机化 和 Jensen 不等式来证明

(c) 得出结论