5.1 软边缘超平面。用于软边缘超平面优化问题的松弛变量的函数形式为:。相反,我们可以使用,其中。
(a)给出这个一般情况下的对偶问题。
(b)这种更一般的公式与标准设置相比如何?在的情况下,优化仍然是凸的吗?
5.2 更紧的Rademacher界。推导定理5.9的以下更紧版本界限:对于任意的 ,在至少 的概率下,对于所有的 和 ,以下成立:
对于任意的 。
5.3 加权重要性的支持向量机(SVM)。假设你希望使用SVM来解决一个学习问题,其中某些训练数据点比其他点更重要。更正式地说,假设每个训练点由一个三元组 组成,其中 是第 个点的重要性。重写原始SVM约束优化问题,使得错误标记一个点 的惩罚按优先级 缩放。然后将这个修改带到对偶解的推导中。
5.4 序贯最小优化(SMO)。SMO算法是一种优化算法,用于加速SVM的训练。SMO将一个(潜在的)大型二次规划(QP)优化问题简化为一系列只涉及两个拉格朗日乘子的优化。SMO减少了内存需求,绕过了数值QP优化的需要,并且易于实现。在这个问题中,我们将推导出在SVM问题的对偶形式中SMO算法的更新规则。
(a)假设我们只想优化方程(5.33)中的 和 。证明优化问题简化为
约束条件: ,
其中 和 对于 。
(b)将线性约束 代入 以获得一个新的目标函数 ,该函数仅依赖于 。证明使 最小化的 (在不考虑约束 的情况下)可以表示为
其中 .
(c) 证明
其中 和 是在 和 优化之前的拉格朗日乘数值(同样, 是偏移量之前的值)。
(d) 证明
(e) 对于 ,定义 和 为 的下界和上界。类似地,对于 ,定义 和 。SMO的更新规则涉及对 值的“剪辑”
即,
我们随后求解 ,以满足等式约束,从而得到 。为什么需要“剪辑”?在 的情况下, 和 是如何推导出来的?
5.5 SVMs 实践。
(a) 从以下地址下载并安装 libsvm 软件库:
(b) 下载位于以下位置的 satimage 数据集:
将训练集和验证集合并为一个。从此我们将这个集合称为训练集。归一化训练和测试向量。
(c) 考虑二元分类问题,即区分类别6和其他数据点。使用结合多项式核的SVM(见第6章)来解决这个分类问题。为此,将训练数据随机分成十个大小相等的互不相交的集合。对于每个多项式度数 ,绘制平均交叉验证误差加上或减去一个标准差作为 的函数。让libsvm中多项式核的其他参数 和 保持默认值1。报告在验证集上测量的最佳折中常数 的值。
(d) 设 为之前找到的最佳对。将 固定为 。绘制十折交叉验证的训练和测试误差,作为 的函数得到的假设。绘制 的函数,得到支持向量的平均数量的图像。
(e) 有多少支持向量位于边缘超平面上?
(f) 在标准二分类问题中,正类和负类上的错误以相同的方式处理。然而,假设我们希望对负点上的错误(假阳性错误) 倍于正点上的错误进行惩罚。给出相应于以这种方式修改的SVM的对偶优化问题。
(g) 假设 是一个整数。展示如何在不编写任何额外代码的情况下使用libsvm找到刚刚描述的修改后SVM的解。
(h) 将修改后的SVM应用于之前研究过的分类任务,并与 的先前SVM结果进行比较。
5.6 稀疏SVM。可以提出两种支持SVM算法的论点:一种基于支持向量的稀疏性,另一种基于边缘的概念。假设我们不是选择最大化边缘,而是选择通过最小化 范数来最大化稀疏性,该范数定义了权重向量 的向量 ,对于某些 。首先,考虑 的情况。这给出了以下优化问题:
(a) 证明在 的非负约束下,该问题与SVM原优化问题的一个实例相一致。
(b) 推导 (5.50) 问题的对偶优化。
(c) 设置 将导致 更加稀疏。推导这种情况下的对偶优化。
5.7 标准超平面的 VC 维数。这个问题的目标是推导出标准超平面 VC 维数的上界,该上界不依赖于
特征空间的维度。设 。我们将证明集合的标准超平面的 VC 维数 。 验证
(a) 设 是一个可以被击碎的集合。证明对于所有的
(b) 使用标签的随机化 和 Jensen 不等式来证明
(c) 得出结论 。