当前位置：首页 > news >正文

机器学习笔记之支持向量机(二)引出对偶问题

news 来源：原创 2024/5/19 0:33:19

机器学习笔记之支持向量机——引出对偶问题

引言
- 回顾：最大间隔分类器
- 问题的转化过程
- - 凸二次规划问题求解及其弊端
  - 拉格朗日乘数法求解——原问题与无约束问题
  - 小插曲：关于原问题与无约束问题等价的解释
  - 无约束问题与对偶问题关联关系
  - 模型求解

引言

上一节介绍了支持向量机模型分类的朴素思想——最大间隔分类器，本节将利用拉格朗日乘数法进行分析。

回顾：最大间隔分类器

最大间隔分类器选择最优模型 的朴素思想是：从能够将样本点分类正确的直线中找出这样一条直线：该直线与 $N$ 个样本点对应的 $N$ 个距离中找出长度最小的距离，而基于该直线找出的最小距离比其他直线的都要大，那么该直线即为所求。

使用数学语言进行表达：
$\mathop{\max}\limits_{\mathcal W,b} \mathop{\min}\limits_{x^{(i)} \in \mathcal X} \frac{1}{||\mathcal W||}|\mathcal W^{T}x^{(i)} + b| = \mathop{\max}\limits_{\mathcal W,b} \frac{1}{||\mathcal W||} \mathop{\min}\limits_{x^{(i)} \in \mathcal X} y^{(i)}\left(\mathcal W^{T}x^{(i)} + b \right)$
其中 $\mathcal X$ 表示样本集合 $\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$ ，约束条件即直线能够将所有样本点分类正确：
$y^{(i)}(\mathcal W^{T}x^{(i)} + b) > 0 \quad \forall (x^{(i)},y^{(i)}) \in Data$
至此，最大间隔分类器朴素思想表示如下：
$\begin{cases} \mathop{\max}\limits_{\mathcal W,b} \frac{1}{||\mathcal W||} \mathop{\min}\limits_{x^{(i)} \in \mathcal X} y^{(i)}\left(\mathcal W^{T}x^{(i)} + b \right) \\ s.t. \quad y^{(i)}(\mathcal W^{T}x^{(i)} + b) > 0 \end{cases}$
经过对函数间隔(Function Margin)的约束，化简结果为：
函数间隔的相关介绍同见上一节
$\begin{cases} \mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} \mathcal W^{T}\mathcal W \\ s.t. \quad y^{(i)}(\mathcal W^{T}x^{(i)} + b) \geq 1 \quad \forall (x^{(i)},y^{(i)}) \in Data \end{cases}$

问题的转化过程

凸二次规划问题求解及其弊端

可以将上式理解成包含 $N$ 个约束条件的凸优化问题( $\frac{1}{2}\mathcal W^{T}\mathcal W$ 是一个凸函数，每一个 $x^{(i)},y^{(i)})$ 均对应一个约束条件)。
将约束条件移项，将其写成如下形式：
$\begin{cases}\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} \mathcal W^{T}\mathcal W \\ s.t. \quad 1 - y^{(i)}(\mathcal W^{T}x^{(i)} + b) \leq 0 \quad \forall (x^{(i)},y^{(i)}) \in Data \end{cases}$

观察，目标函数 $\frac{1}{2}\mathcal W^{T}\mathcal W$ 是一个二次型函数。即：
$f(\mathcal W) =\frac{1}{2}\mathcal W^{T}\mathcal W =\frac{1}{2}(w_1,w_2,\cdots,w_p)\begin{pmatrix}w_1 \\ w_2 \\ \vdots \\ w_p\end{pmatrix} = \frac{1}{2}(w_1^2 + w_2^2 + \cdots +w_p^2)$
并且 $N$ 个约束均为不等式约束，且每个不等式约束均为仿射函数(affine function)，即 最高次数为1的多项式函数：
$w_i(i=1,2,\cdots p),b$ 均是一次项。
$\begin{aligned}g(\mathcal W,b) & = 1 - y^{(i)}(\mathcal W^{T}x^{(i)} + b) \\ & = 1 - y^{(i)}\left[(w_1,w_2,\cdots,w_p)\begin{pmatrix}x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)}\end{pmatrix} + b \right] \\ & = 1 - y^{(i)}(w_1\cdot x_1^{(i)} + w_2 \cdot x_2^{(i)} + \cdots +w_p \cdot x_p^{(i)} + b) \end{aligned}$

至此，该问题从凸优化问题转化为一个 凸二次规划问题(Convex Quadratic Programming)。凸二次规划问题存在解，但是对凸二次规划问题求解存在较高约束：
理想状态下：

样本空间(样本点 $x^{(i)}$ 的维度)或者特征空间( $\mathcal W$ 的维度) $p$ 不高；
样本空间中的样本数量 $N$ 不多；

这种情况下对凸二次规划问题求解是方便的。但实际情况下，样本数量和特征空间维度都很高，甚至存在将样本点 $x^{(i)}$ 的维度通过特征转换将其映射到高维空间甚至是无限维空间。这种情况下，凸二次规划很难求解。本节将介绍通过求解对偶问题对原问题进行求解。

拉格朗日乘数法求解——原问题与无约束问题

继续观察化简结果：
$\begin{cases}\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2} \mathcal W^{T}\mathcal W \\ s.t. \quad 1 - y^{(i)}(\mathcal W^{T}x^{(i)} + b) \leq 0 \quad \forall (x^{(i)},y^{(i)}) \in Data \end{cases}$
将该化简结果称为原问题(Primal Problem),使用拉格朗日乘数法引出它的无约束原问题。
首先，列出原问题的拉格朗日函数 $\mathcal L(\mathcal W,b,\lambda)$ ：
由于‘原问题’中包含 $N$ 个约束条件，因此 $\lambda$ 中一共包含 $N$ 个分量：
$\lambda = \{\lambda^{(1)},\lambda^{(2)},\cdots,\lambda^{(N)}\} \\ \mathcal L(\mathcal W,b,\lambda) = \frac{1}{2} \mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \right]$
根据拉格朗日函数自身性质， $\lambda^{(i)}(i=1,2,\cdots,N)\geq 0$

至此，原问题通过拉格朗日函数转化为如下形式：
$\begin{cases}\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda) \\ s.t. \quad \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N)\end{cases}$

观察上述式子，和原问题相比，原问题的约束条件被拉格朗日乘数 $\lambda$ 并入到了目标函数中，新式子的约束条件中多出关于 $\lambda$ 的约束条件。称该式子为 无约束原问题。
这里的无约束指‘带约束原问题’的约束条件消失了。对于求解模型参数 $\mathcal W,b$ ,原问题与无约束问题是等价的。

小插曲：关于原问题与无约束问题等价的解释

在求解最优模型参数过程中，为什么 原问题和无约束原问题是等价的？
观察拉格朗日函数 $\mathcal L(\mathcal W,b,\lambda)$ ：
$\mathcal L(\mathcal W,b,\lambda) = \frac{1}{2} \mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \right]$

$y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right)$ 具有什么意义？结合回顾中的介绍，它的实际意义如下：

$y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \leq 0$ ，意味着直线 $\mathcal W^{T}x + b = 0$ 对具体样本 $x^{(i)},y^{(i)})$ 分类正确；
反之， $y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) > 0$ ，意味着直线 $\mathcal W^{T}x^{(i)} + b = 0$ 对具体样本 $x^{(i)},y^{(i)})$ 分类错误；

由于 在介绍最大间隔分类器朴素思想 时，就已经说明了前提条件：基于样本点分类正确的基础上。

假如并没有提到这个条件，即当前直线存在样本点被分类错误。数学语言表达即：
$\exists (x^{(i)},y^{(i)}) \in Data \to 1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) > 0$
将上述两种情况分别带入拉格朗日函数 $\mathcal L(\mathcal W,b,\lambda)$ 中进行分析：

$y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) > 0$ 时，已知 $\lambda^{(i)} \geq 0$ 恒成立，则 $\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$ 结果表示如下：
由于 $\lambda^{(i)}$ 与 $y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right)$ 同号，因此 $\sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \right]$ 部分没有上界，即当 $\lambda^{(i)}$ 均取值 $\infty$ 时, $\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$ 取得最大值 $\infty$ ;
$\begin{aligned}\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda) & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \right] \\ & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \infty \\ & = \infty \end{aligned}$
$y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \leq 0$ 时，同理，对应的 $\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$ 结果表示如下：
由于 $\lambda^{(i)}$ 与 $y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right)$ 异号，因此 $\sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \right]$ 结果是’非正数‘，即存在上界0，当 $\lambda^{(i)} = 0 (i=1,2,\cdots,N)$ 时， $\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda)$ 取得最大值 $\frac{1}{2}\mathcal W^{T}\mathcal W$ ；
$\begin{aligned}\mathop{\max}\limits_{\lambda} \mathcal L(\mathcal W,b,\lambda) & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} \left[1 - y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \right] \\ & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N 0 \\ & = \frac{1}{2}\mathcal W^{T}\mathcal W \end{aligned}$
综上，目标函数 $\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)$ 可以表示为如下形式：
$\mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)$ 结果由两部分组成： $\{\infty,\frac{1}{2}\mathcal W^{T}\mathcal W\}$ ,对 $\infty$ 取最小值没有意义；只能对 $\frac{1}{2}\mathcal W^{T}\mathcal W$ 取最小值。
$\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda) = \mathop{\min}\limits_{\mathcal W,b}\{\infty,\frac{1}{2}\mathcal W^{T}\mathcal W\}=\mathop{\min}\limits_{\mathcal W,b} \frac{1}{2}\mathcal W^{T}\mathcal W$

最终结果发现和原问题的目标函数完全相同。回顾整个推导过程，这意味着 $\lambda^{(i)} \geq 0(i=1,2,\cdots,N)$ 条件满足的同时，还隐含地满足了另一个条件： $y^{(i)} \left(\mathcal W^{T}x^{(i)} + b\right) \leq 0$

无约束问题与对偶问题关联关系

基于无约束问题，它的 对偶问题表示如下：
$\begin{cases}\mathop{\max}\limits_{\lambda} \mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \\ s.t. \quad \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N)\end{cases}$
从数学角度观察，无约束问题也是原问题，即“没有约束的原问题”，它和对偶问题之间存在对偶关系。从公式中表示即 $\min,\max$ 调换了位置，约束条件没有变化。

首先探究：无约束问题的目标函数与其对偶问题的目标函数之间的关系。即：
$\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)\overset{\text{?}}{\Leftrightarrow}\mathop{\max}\limits_{\lambda} \mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$
如果没有其他限制条件，该问题是被数学证明了的，其结果为：对偶问题 $\leq$ 原问题。即：
$\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)\geq \mathop{\max}\limits_{\lambda} \mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$

具体证明如下：
首先观察公式两端的前半部分：

公式左端： $\mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda) \geq \mathcal L(\mathcal W,b,\lambda)$ 恒成立。
解释：从字面意义上解释 $\mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)$ ，即：通过选择最优参数 $\lambda$ ，选择该参数的结果是：使 $\mathcal L(\mathcal W,b,\lambda)$ 最大。那么它 必然大于等于任意一个 $\mathcal L(\mathcal W,b,\lambda)$ 结果；
同理，公式右端： $\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \leq \mathcal L(\mathcal W,b,\lambda)$ 恒成立。即： $\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$ 是关于 $\mathcal L(\mathcal W,b,\lambda)$ 的最小值，那么它必然小于等于任意一个 $\mathcal L(\mathcal W,b,\lambda)$ 结果；

综上，我们可以得到如下关系：
$\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \leq \mathcal L(\mathcal W,b,\lambda) \leq \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)$
即：
$\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \leq \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)$
此时令 $\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$ 是关于 $\lambda$ 的函数：
原因： $\mathcal W,b$ 已经被确定，对应结果是’使 $\mathcal L(\mathcal W,b,\lambda)$ 最小’。因此，该式中仅包含 $\lambda$ 一个变量;
$\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) = \mathcal A(\lambda)$
同理，令 $\mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)$ 是关于 $\mathcal W,b$ 的函数：
原因：与上面类似~
$\mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda) = \mathcal B(\mathcal W,b)$
则有：
$\mathcal A(\lambda)\leq \mathcal B(\mathcal W,b)$
那么：基于上述公式， $\mathcal A(\lambda)$ 必然小于等于 $\mathcal B(\mathcal W,b)$ 的最小值。即：
$\mathcal A(\lambda) \leq \mathop{\min}\limits_{\mathcal W,b} \mathcal B(\mathcal W,b)$
同理，基于上述公式， $\mathcal A(\lambda)$ 中的最大值 $\mathop{\max}\limits_{\lambda} \mathcal A(\lambda)$ 也必然小于 $\mathcal B(\mathcal W,b)$ 中的任意一个结果，包括最小值 $\mathop{\min}\limits_{\mathcal W,b}\mathcal B(\mathcal W,b)$ 。即：
$\mathop{\max}\limits_{\lambda} \mathcal A(\lambda) \leq \mathop{\min}\limits_{\mathcal W,b}\mathcal B(\mathcal W,b)$
将 $\mathcal A(\lambda),\mathcal B(\mathcal W,b)$ 进行替换，即可得到如下公式：
$\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda)\geq \mathop{\max}\limits_{\lambda} \mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$
证明完毕。
我们称该关系为弱对偶关系。与弱对偶关系相反的是强对偶关系。强对偶关系表示如下：
$\mathop{\min}\limits_{\mathcal W,b} \mathop{\max}\limits_{\lambda}\mathcal L(\mathcal W,b,\lambda) = \mathop{\max}\limits_{\lambda} \mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$
从弱对偶关系到强对偶关系需要满足一些条件。由于原问题是凸二次规划问题，该类问题可以通过数学证明其原问题与对偶问题之间是强对偶关系。这里篇幅有限，不在此证明了。

至此，无约束问题和它的对偶问题是强对偶关系，因次它们之间是等价关系。

模型求解

重新观察对偶问题：
$\begin{cases}\mathop{\max}\limits_{\lambda} \mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) \\ s.t. \quad \lambda^{(i)} \geq 0 \quad (i=1,2,\cdots,N)\end{cases}$
继续观察目标函数的前半部分：
$\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda)$
可以将其理解为：求解最优参数 $\mathcal W,b$ 使 $\mathcal L(\mathcal W,b,\lambda)$ 最小。由于上式中对 $\lambda$ 没有任何约束，因此将 $\lambda$ 视作常数，直接分别对 $\mathcal W,b$ 求导：
个人理解：之所以要求解其‘对偶问题‘，原因在于’无约束问题‘的前半部分是关于 $\lambda$ 的函数，而 $\lambda$ 存在约束条件，不容易直接求解。

首先对参数 $b$ 进行求导( $\mathcal W$ 同样被视作常数)：
展开的大括号中只有最后一项包含 $b$ ,其余均视作常数;
$\begin{aligned} \frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial b} & = \frac{\partial}{\partial b}\left[\frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N\lambda^{(i)} y^{(i)}\mathcal W^{T}x^{(i)} - \sum_{i=1}^N \lambda^{(i)}y^{(i)}b \right] \\ & = \frac{\partial}{\partial b}\left[-\sum_{i=1}^N \lambda^{(i)} y^{(i)} b \right] \\ & = -\sum_{i=1}^N\lambda^{(i)}y^{(i)} \end{aligned}$
令 $\frac{\partial \mathcal L(\mathcal W,b,\lambda)}{\partial b} \triangleq 0$ ，此时得到一个新的条件：
$\sum_{i=1}^N \lambda^{(i)}y^{(i)} = 0$

将该条件重新带回 $\mathcal L(\mathcal W,b,\lambda)$ ，对拉格朗日函数进行化简：
展开的最后一项中 $b$ 不含 $i$ ,因此视作常数，提到连加号前面；又因为新条件，最后一项消除；但由于第三项中包含 $x^{(i)}$ ,因此不能被消除；
$\begin{aligned}\mathcal L(\mathcal W,b,\lambda) & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N\lambda^{(i)} y^{(i)}\mathcal W^{T}x^{(i)} - \sum_{i=1}^N \lambda^{(i)}y^{(i)}b \\ & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N\lambda^{(i)} y^{(i)}\mathcal W^{T}x^{(i)} - b\sum_{i=1}^N \lambda^{(i)}y^{(i)} \\ & = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N\lambda^{(i)} y^{(i)}\mathcal W^{T}x^{(i)} \end{aligned}$
对化简结果继续对 $\mathcal W$ 进行求导：
大括号中只有第一项和第三项含 $\mathcal W$ ,这里仍然使用矩阵论中的矩阵求导法则~
$\begin{aligned} \frac{\frac{1}{2} \mathcal W^{T}\mathcal W}{\partial \mathcal W} & = \frac{1}{2} \cdot 2 \cdot \mathcal W = \mathcal W \\ \frac{\sum_{i=1}^N \lambda^{(i)} y^{(i)} \mathcal W^{T}x^{(i)}}{\partial \mathcal W} &=\sum_{i=1}^N\lambda^{(i)}y^{(i)}x^{(i)} \end{aligned}$

求导结果如下：
$\begin{aligned} \frac{\mathcal L(\mathcal W,b,\lambda)}{\partial \mathcal W} & = \frac{\partial}{\partial \mathcal W}\left[\frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N\lambda^{(i)} y^{(i)}\mathcal W^{T}x^{(i)}\right] \\ & = \frac{1}{2} \cdot 2 \cdot \mathcal W - \sum_{i=1}^N\lambda^{(i)}y^{(i)}x^{(i)} \end{aligned}$

继续令 $\frac{\mathcal L(\mathcal W,b,\lambda)}{\partial \mathcal W} \triangleq 0$ ，则有：
$\mathcal W = \sum_{i=1}^N \lambda^{(i)}y^{(i)}x^{(i)}$
最后，将 $\mathcal W$ 的表达式带回第一次化简后的 $\mathcal L(\mathcal W,b,\lambda)$ 中，此时该函数是只关于参数 $\lambda$ 的一个函数：
$\mathcal W = \sum_{i=1}^N \lambda^{(i)}y^{(i)}x^{(i)} \to \mathcal L(\mathcal W,b,\lambda) = \frac{1}{2}\mathcal W^{T}\mathcal W + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N\lambda^{(i)} y^{(i)}\mathcal W^{T}x^{(i)} \\ \begin{aligned} \mathcal L(\mathcal W,b,\lambda) & = \frac{1}{2}\left(\sum_{i=1}^N \lambda^{(i)}y^{(i)}x^{(i)}\right)^{T}\left(\sum_{j=1}^N \lambda^{(j)}y^{(j)}x^{(j)}\right) + \sum_{i=1}^N \lambda^{(i)} - \sum_{i=1}^N \left[\lambda^{(i)} y^{(i)}\left(\sum_{i=1}^N \lambda^{(i)}y^{(i)}x^{(i)}\right)^{T}x^{(i)} \right]\\ \end{aligned}$
观察第一项，由于 $\lambda^{(i)}$ 是每个样本点 $x^{(i)},y^{(i)})$ 对应的 拉格朗日乘数，是一个标量、常数； $y^{(i)} \in \{-1,1\}$ ，也是一个标量、常数；因此则有：
$\left(\lambda^{(i)}\right)^{T} = \lambda^{(i)};\left(y^{(i)}\right)^{T} = y^{(i)}$

至此，将第一项展开，并将上式带入：
$\frac{1}{2} \left[\sum_{i=1}^N\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left(x^{(i)}\right)^{T}x^{(j)}\right]$
同理，将第三项展开，并将上式带入：
$\left[\sum_{i=1}^N\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left(x^{(i)}\right)^{T}x^{(j)}\right]$
发现，第一项与第三项之间只有系数上的差异。重新将三项合并，得到最终的 $\mathcal L(\mathcal W,b,\lambda)$ 结果：
此时结果只包含 $\lambda^{(i)}(i=1,2,\cdots,N)$ 一种类型的变量。
$\mathcal L(\mathcal W,b,\lambda) = -\frac{1}{2} \left[\sum_{i=1}^N\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left(x^{(i)}\right)^{T}x^{(j)}\right] + \sum_{i=1}^N\lambda^{(i)}$
由于对 $b$ 求解偏导化为了新的条件；对 $\mathcal W$ 求偏导得到了 $\mathcal W$ 关于 $\lambda$ 的最优解。因此，则有：
$\mathop{\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b,\lambda) = -\frac{1}{2} \left[\sum_{i=1}^N\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left(x^{(i)}\right)^{T}x^{(j)}\right] + \sum_{i=1}^N\lambda^{(i)}$

最终，通过求解对偶问题，将对偶问题转化为 目标函数、约束条件中只含 $\lambda^{(i)}(i=1,2,\cdots,N)$ 的优化问题：
该公式对应于机器学习(周志华著)123页最下方。
$\begin{cases}\mathop{\max}\limits_{\lambda} -\frac{1}{2} \left[\sum_{i=1}^N\sum_{j=1}^N \lambda^{(i)}\lambda^{(j)}y^{(i)}y^{(j)}\left(x^{(i)}\right)^{T}x^{(j)}\right] + \sum_{i=1}^N\lambda^{(i)} \\ s.t. \quad \lambda^{(i)} \leq 0\end{cases}$