当前位置：首页 > news >正文

机器学习基础：拉格朗日乘子法

news 来源：原创 2024/5/18 22:16:44

在凸优化问题中，拉格朗日乘子法是最常用的方法之一。

先看个例题：求目标函数 $\mathrm{f}(\mathrm{x}, \mathrm{y})=\mathrm{x}^{2}+\mathrm{y}^{2}$ ，在约束条件 $\mathrm{xy}=3$ 下的最小值。

这是一个典型的约束优化问题，根据我们中学知识，首先想到的是一个变量用另外一个变量进行替换，再带入目标函数就可以求出极值。

将 $y=\frac{3}{x}$ 带入 $\mathrm{f}(\mathrm{x}, \mathrm{y})=\mathrm{x}^{2}+\mathrm{y}^{2}$ ，可得 $\mathrm{f}(\mathrm{x})=\mathrm{x}^{2}+\frac{9}{\mathrm{x}^{2}} ，然后求 \mathrm{f}(\mathrm{x})$ 的最小值。
这就变成了求一元函数的无约束极值。求导， $\mathrm{f}^{\prime}(\mathrm{x})=0$ 的点即为极值点。推导可得，在点 $(\sqrt{3}, \sqrt{3})$ 和点 $(-\sqrt{3},-\sqrt{3})$ 处， $\mathrm{f}(\mathrm{x}, \mathrm{y})$ 的最小值为6 。

更直观一些，将 $\mathrm{x}^{2}+\mathrm{y}^{2}=\mathrm{c}$ 的曲线族画出来，如图所示，当曲线族中的圆与 $x y = 3$ 曲线相切时，切点到原点的距离最短。也就是说， $f (x, y) = c$ 的等高线和双曲线 $g (x, y)$ 相切时，可以得到上述优化问题的一个极值。那么，当 $\mathrm{f}(\mathrm{x}, \mathrm{y})$ 和 $\mathrm{g}(\mathrm{x}, \mathrm{y})$ 相切时， $x, y$ 的值是多少呢? 该如何求解呢?

在讨论梯度概念时，梯度与等高线的关系描述如下：函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 梯度方向与过点 $x_0,y_0)$ 的等高线 $f (x, y) = c$ 在这点的法线方向相同，且从数值较低的等高线指向数值较高等高线，而梯度的模等于函数在这个法线方向的方向导数。这个法线方向就是方向导数取得最大值的方向。

根据梯度与等高线的关系描述，上面问题中 $f (x, y)$ 和 $g (x, y)$ 相切时，它们的切线相同，即法向量是相互平行的，因此，可以得到 $\triangledown f(x,y)=-\lambda \cdot \triangledown g(x,y)$ 。分别求偏导，并且加上约束条件 $x y = 3$ ，可以得到方程组：
$\left\{\begin{array}{l} \frac{\partial f}{\partial x}=-\lambda \frac{\partial g}{\partial x} \\ \frac{\partial f}{\partial y}=-\lambda \frac{\partial g}{\partial y} \\ x y=3 \end{array}\right.$
即:

$\left\{\begin{array}{l} 2 x=-\lambda y \\ 2 y=-\lambda x \\ x y=3 \end{array}\right.$
求解结果: $\mathrm{x}=\sqrt{3}, \mathrm{y}=\sqrt{3}, \lambda=-2$ 或者 $\mathrm{x}=-\sqrt{3}, \mathrm{y}=-\sqrt{3}, \lambda=-2$ 通过上述例子引入拉格朗日乘子法的基本原理，即通过引入拉格朗日乘子 $\lambda$ 将原来的约束优化问题转化为无约束的方程组问题。

一般步骤

求解函数 $\mathrm{u}=\mathrm{f}(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t})$ 在条件 $\varphi(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t})=0, \psi(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t})=0$ 下极值。
构造函数: $\mathrm{F}\left(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t}, \lambda_{1}, \lambda_{2}\right)=\mathrm{f}(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t})+\lambda_{1} \cdot \varphi(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t})+\lambda_{2} \cdot \psi(\mathrm{x}, \mathrm{y}, \mathrm{z}, \mathrm{t})$ ，其中， $\lambda_{1}$ 、 $\lambda_{2}$ 为拉格朗日乘子
通过对构造函数求偏导为 0 列出方程组。
求出方程组的解，带入即可得目标函数的极值。

【例】已知目标函数为 $\mathrm{V}(\mathrm{x}, \mathrm{y}, \mathrm{z})=\mathrm{xyz}$ ，在约束条件 $\mathrm{xy}+2 \mathrm{xz}+2 \mathrm{yz}=12$ 下，求体积 $\mathrm{V}$ 的最大值。
解: $\lambda)=x^{3} y^{2} z+\lambda \cdot(x+y+z-12)$

求偏导可得方程组
$\left\{\begin{array}{l}3 x^{2} y^{2} z+\lambda=0 \\ 2 x^{3} y z+\lambda=0 \\ x^{3} y^{2}+\lambda=0 \\ x+y+z-12=0\end{array}\right.$
解得唯一驻点 (6,4,2), $u_{\operatorname{mux}}=6912$ 。

由凸优化问题我们知道：

例如要求解 $min_{x}{f(x)}$ ，那么就是解方程 $\nabla f(x) =0$ ，最终的 $x^{\ast}$ 为最优解。

那么当有约束条件怎么呢？

拉格朗日法就是把一个有约束问题转换成一个无约束问题

优化问题一般有以下几种形式
$\begin{array}{cllllll} \min _{x} & f_{0}(x) & \min _{x} & f_{0}(x) & \max _{x} & f_{0}(x) & \\ \text { s.t. } & f_{i}(x) \leq 0, \quad i=1, \ldots, m & \text { s.t. } & f_{i}(x) \geq 0, \quad i=1, \ldots, m & \text { s.t. } & f_{i}(x) \leq 0, \quad i=1, \ldots, m \\ & h_{i}(x)=0, \quad i=1, \ldots, p & & h_{i}(x)=0, \quad i=1, \ldots, p & & h_{i}(x)=0, \quad i=1, \ldots, p \end{array}$
最常用的是第一种，求最小值，约束为小于等于。

对于仅含等式约束的优化问题：
$\begin{array}{cl} \min & f(\boldsymbol{x}) \\ \text { s.t. } & h_{i}(\boldsymbol{x})=0 \quad i=1,2, \ldots, n \end{array}$
其中自变量 $\boldsymbol{x} \in \mathbb{R}^{n}, f(\boldsymbol{x})$ 和 $h_{i}(\boldsymbol{x})$ 均有连续的一阶偏导数。首先列出其拉格朗日函数：

$L(\boldsymbol{x}, \boldsymbol{\lambda})=f(\boldsymbol{x})+\sum_{i=1}^{n} \lambda_{i} h_{i}(\boldsymbol{x})$

其中 $\boldsymbol{\lambda}=\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}\right)^{\mathrm{T}}$ 为拉格朗日乘子。然后对拉格朗日函数关于 $\boldsymbol{x}$ 求偏导，并令导数等于0再搭配约束条件 $h_{i}(\boldsymbol{x})=0$ 解出 $\boldsymbol{x}$ , 求解出的所有 $\boldsymbol{x}$ 即为上述优化问题的所有可能极值点。

拉格朗日函数与原始问题的关系
$\begin{array}{cl} \min _{x} & f_{0}(x) \\ \text { s.t. } & f_{i}(x) \leq 0, \quad i=1, \ldots, m \\ & h_{i}(x)=0, \quad i=1, \ldots, p \end{array}$
对应上面优化问题可以写为如下形式：
$\begin{aligned} \mathcal{L}(x, \lambda, \nu) &=f_{0}(x)+\sum_{i=1}^{m} \lambda_{i} f_{i}(x)+\sum_{i=1}^{p} \nu_{i} h_{i}(x) \\ \text { s.t. } \quad & \lambda_{i} \geq 0, \quad i=1, \ldots, m \end{aligned}$
$\lambda_i$ 和 $v_i$ 是两个拉格朗日乘子，由于 $f_i(x)$ 是不等式约束，所以 $\lambda_i$ 有约束条件必须大于0； $h_i(x)$ 是等式约束， $v_i$ 没有约束。

上面式子等价于这个式子：
$\begin{array}{rl} \min _{x} \max _{\lambda, v} & \mathcal{L}(x, \lambda, \nu) \\ \text { s.t. } & \lambda_{i} \geq 0, \quad i=1, \ldots, m \end{array}$
【证明两式等价：】

记
$\theta_{p}(x)=\max _{\lambda, v} \mathcal{L}(x, \lambda, \nu) \\ s.t. \quad \lambda_{i} \geq 0, \quad i=1, \ldots, m$
则 $\theta_{P}(x)$ y有以下性质：
$\theta_{P}(x)=\left\{\begin{array}{ll}f_{0}(x) & \text { for } x \text { that satisfied the origin constraint } \\ +\infty & \text { otherwise }\end{array}\right.$
验证上述性质：

若存在 x 使得某个 $f_{i}(x)>0$ 则我们可令 $\leq \lambda_{i}$ $\rightarrow+\infty$ , 进而有 $\theta_{p}(x)=+\infty$
若存在 x 使得某个 $h_{i}(x) \neq 0$ 则我们可令 $v_{i} h_{i}(x) \rightarrow+\infty$ , 进而有 $\theta_{p}(x)=+\infty$
若 $\in\left\{x \mid \forall i, v_{i}, \lambda_{i} \geq 0, \lambda_{i} f_{i}(x) \leq 0, v_{i} h_{i}(x)=0\right\}$ 则有 $\max _{\lambda, v} \mathcal{L}(x, \lambda, \nu)=f_{0}(x)$