当前位置：首页 > news >正文

《视觉SLAM十四讲》-- 非线性优化

news 来源：原创 2024/5/14 20:11:40

文章目录

- 05 非线性优化
- - 5.1 批量状态估计与最大后验估计
  - 5.2 最小二乘的引出
  - 5.3 非线性最小二乘
  - - 5.3.1 一阶和二阶梯度法
    - 5.3.2 高斯牛顿法
    - 5.3.3 列文伯格-马夸尔特方法
  - 5.4 实践：曲线拟合问题

05 非线性优化

5.1 批量状态估计与最大后验估计

（1）两种状态估计方法：

增量/渐进式（滤波器）：数据是随时间逐渐到来的；
批量式：一次给定所有的数据，估计所有的变量。

（2）经典的 SLAM 模型由一个运动方程和一个观测方程组成

$\left\{\begin{array}{l} \boldsymbol{x}_{k}=f\left(\boldsymbol{x}_{k-1}, \boldsymbol{u}_{k}\right)+\boldsymbol{w}_{k} \\ \boldsymbol{z}_{k, j}=h\left(\boldsymbol{y}_{j}, \boldsymbol{x}_{k}\right)+\boldsymbol{v}_{k, j} \end{array}\right. \tag{5-1}$

定义所有时刻的机器人位姿和路标点坐标

$\boldsymbol{x}=\left\{\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N}\right\}, \quad \boldsymbol{y}=\left\{\boldsymbol{y}_{1}, \ldots, \boldsymbol{y}_{M}\right\}$

用 $\boldsymbol{u}$ 表示所有时刻的输入， $\boldsymbol{z}$ 表示所有时刻的观测数据。在已知输入和观测数据的条件下，求机器人状态 $\boldsymbol{x}$ 和 $\boldsymbol{y}$ 的概率分布，即

$P(\boldsymbol{x}, \boldsymbol{y}| \boldsymbol{u}, \boldsymbol{z})$

根据贝叶斯法则，

$\underbrace{P(\boldsymbol{x}, \boldsymbol{y} \mid \boldsymbol{z}, \boldsymbol{u})}_{\text {后验 }}=\frac{P(\boldsymbol{z}, \boldsymbol{u} \mid \boldsymbol{x}, \boldsymbol{y}) P(\boldsymbol{x}, \boldsymbol{y})}{P(\boldsymbol{z}, \boldsymbol{u})} \propto \underbrace{P(\boldsymbol{z}, \boldsymbol{u} \mid \boldsymbol{x}, \boldsymbol{y})}_{\text {似然 }} \underbrace{P(\boldsymbol{x}, \boldsymbol{y})}_{\text {先验 }} \tag{5-2}$

那么，求解最大后验概率等价于最大化似然概率和先验概率的乘积。但是，有时我们并不知道机器人位姿或路标大概在什么地方，也就不知道先验概率，上式就简化为求解最大似然概率

$(\boldsymbol{x}, \boldsymbol{y})^*_{MLE}=\argmax P(\boldsymbol{z}, \boldsymbol{u} \mid \boldsymbol{x}, \boldsymbol{y})$

直观地讲，似然是指“在现在的位姿下，可能产生怎样的观测数据”，但由于观测数据已知，则上式可理解为在什么样的状态下，最可能产生观测到的数据。

5.2 最小二乘的引出

（1）在高斯分布的假设下，最大似然有较简单的形式。对于某一次观测

$\boldsymbol{z}_{k, j}=h\left(\boldsymbol{y}_{j}, \boldsymbol{x}_{k}\right)+\boldsymbol{v}_{k, j}$

其中噪声项满足 $\boldsymbol{v}_{k} \sim \mathcal{N}\left(\mathbf{0}, \boldsymbol{Q}_{k, j}\right)$ ，所以观测数据的条件概率为

$P(\boldsymbol{z}_{k, j}|\boldsymbol{y}_{j}, \boldsymbol{x}_{k})=N(h\left(\boldsymbol{y}_{j}, \boldsymbol{x}_{k}\right),\boldsymbol{Q}_{k, j})$

依然满足高斯分布。

（2）对于任意维高斯分布 $\boldsymbol{x} \sim \mathcal{N}\left(\boldsymbol{\mu}, \boldsymbol{\Sigma}\right)$ ，则其概率密度函数为

$P(\boldsymbol{x})=\frac{1}{\sqrt{(2\pi)^N\det(\boldsymbol{\Sigma})}}\exp{(-\frac{1}{2}(\boldsymbol{x-\mu})^T\Sigma^{-1}(\boldsymbol{x-\mu}))} \tag{5-3}$

其中， $N$ 为向量 $\boldsymbol{x}$ 的维度； $\det(\boldsymbol{\Sigma})$ 表示求 $\boldsymbol{\Sigma}$ 的行列式。

取其负对数，则变为

$-\ln(P(\boldsymbol{x}))=\frac{1}{2}\ln((2\pi)^N\det(\boldsymbol{\Sigma}))+\frac{1}{2}(\boldsymbol{x-\mu})^T\Sigma^{-1}(\boldsymbol{x-\mu}) \tag{5-4}$

对原函数求最大化相当于对负对数求最小化。显然与第一项无关，故只需考虑最小化右侧的二次型项，则

$\begin{aligned} \left(\boldsymbol{x}_{k}, \boldsymbol{y}_{j}\right)^{*} &=\arg \max \mathcal{N}\left(h\left(\boldsymbol{y}_{j}, \boldsymbol{x}_{k}\right), \boldsymbol{Q}_{k, j}\right) \\ &=\arg \min \left(\left(\boldsymbol{z}_{k, j}-h\left(\boldsymbol{x}_{k}, \boldsymbol{y}_{j}\right)\right)^{\mathrm{T}} \boldsymbol{Q}_{k, j}^{-1}\left(\boldsymbol{z}_{k, j}-h\left(\boldsymbol{x}_{k}, \boldsymbol{y}_{j}\right)\right)\right) \end{aligned} \tag{5-5}$

机器人状态 $\boldsymbol{x}$ 、 $\boldsymbol{y}$ 等于使二次型项最小时的值。

（3）假设各个时刻的输入和观测都是相互独立的，那么，我们对似然概率进行因式分解，得

$P(\boldsymbol{z}, \boldsymbol{u} \mid \boldsymbol{x}, \boldsymbol{y})=\prod_{k} P\left(\boldsymbol{u}_{k} \mid \boldsymbol{x}_{k-1}, \boldsymbol{x}_{k}\right) \prod_{k, j} P\left(\boldsymbol{z}_{k, j} \mid \boldsymbol{x}_{k}, \boldsymbol{y}_{j}\right) \tag{5-6}$

定义真实输入、观测数据与预测输入、观测数据之间的误差

$\boldsymbol{e_u}_{, k}=\boldsymbol{x}_{k}-f(\boldsymbol{u}_k, \boldsymbol{x}_{k-1})$
$\boldsymbol{e_z}_{,j, k}=\boldsymbol{z}_{k, j}-h(\boldsymbol{x}_{k}, \boldsymbol{y}_{j}) \tag{5-7}$

那么，式（5-5）可以转化为一个最小二乘问题，即

$\min J(\boldsymbol{x}, \boldsymbol{y})=\sum_{k} e_{\boldsymbol{u}, k}^{\mathrm{T}} \boldsymbol{R}_{k}^{-1} \boldsymbol{e}_{\boldsymbol{u}, k}+\sum_{k} \sum_{j} \boldsymbol{e}_{\boldsymbol{z}, k, j}^{\mathrm{T}} \boldsymbol{Q}_{k, j}^{-1} \boldsymbol{e}_{\boldsymbol{z}, k, j} \tag{5-8}$

5.3 非线性最小二乘

非线性函数常常难以用求导法得到最值，而采用梯度下降法，即，通过不断迭代 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_k+\Delta\boldsymbol{x}_k$ ，使得 $||f(\boldsymbol{x}_k+\Delta\boldsymbol{x}_k)||^2$ 达到极小值
，当 $\Delta \boldsymbol{x}$ 足够小时，即停止。关键在于增量 $\Delta\boldsymbol{x}$ 的选取。

过程如下：

——————————————————————————————————————————————————————

给定某个初值 $\boldsymbol{x}_0$ ；
对于第 $k$ 次迭代，寻找增量 $\Delta\boldsymbol{x}_k$ ；
当 $\Delta \boldsymbol{x}_k$ 足够小时，即停止；否则，重复第二步，继续寻找。

——————————————————————————————————————————————————————

下面介绍几个常用的优化方法。

5.3.1 一阶和二阶梯度法

考虑最小二乘问题：

$\min _{x} F(x)=\frac{1}{2}\|f(x)\|_{2}^{2}$

注意 $F(\boldsymbol{x})$ 和 $f(\boldsymbol{x})$ 的区别（可以理解为 $f(\boldsymbol{x})$ 为残差矩阵）。

参考：https://blog.csdn.net/u014709760/article/details/97576395

对于非线性函数 $F(\boldsymbol{x})$ ，考虑第 $k$ 次迭代，将其在 $\boldsymbol{x}_k$ 附近泰勒展开（将 $\Delta \boldsymbol{x}_k$ 看做未知数），

$F(\boldsymbol{x})=F(\boldsymbol{x}_k+\Delta \boldsymbol{x}_k) \approx F(\boldsymbol{x}_k)+\boldsymbol{J}(\boldsymbol{x}_k)^T\Delta \boldsymbol{x}_k+\frac{1}{2}\Delta \boldsymbol{x}_k^T\boldsymbol{H}(\boldsymbol{x}_k)^T\Delta \boldsymbol{x}_k \tag{5-9}$

其中， $\boldsymbol{J}(\boldsymbol{x}_k)$ 是 $F(\boldsymbol{x})$ 关于 $\boldsymbol{x}$ 的一阶导数， $\boldsymbol{H}(\boldsymbol{x}_k)$ 是二阶导数。

（1）仅保留一阶导数时，取增量为反向梯度即可，即

$\Delta \boldsymbol{x}^*=-\boldsymbol{J}(\boldsymbol{x}_k)$

也被称为最速下降法。

（2）保留二阶梯度信息。此时增量方程为

$\Delta \boldsymbol{x}^{*}=\arg \min \left(F(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^{\mathrm{T}} \Delta \boldsymbol{x}+\frac{1}{2} \Delta \boldsymbol{x}^{\mathrm{T}} \boldsymbol{H} \Delta \boldsymbol{x}\right) \tag{5-10}$

右侧各项分别为 $\Delta \boldsymbol{x}$ 的零次、一次和二次项，将其对 $\Delta \boldsymbol{x}$ 求导，并令其为零

$\boldsymbol{J}+\boldsymbol{H} \Delta \boldsymbol{x}=0 \tag{5-11}$

求解这个方程，即得到增量。此方法也被称为牛顿法。但在实际中， $\boldsymbol{H}$ 矩阵计算较为困难。

5.3.2 高斯牛顿法

将 $f(\boldsymbol{x})$ 一阶泰勒展开（注意不是 $F(\boldsymbol{x})$ ）：

$f(\boldsymbol{x}+\Delta \boldsymbol{x}) \approx f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x} \tag{5-12}$
其中， $\boldsymbol{J}(\boldsymbol{x})$ 是 $f(\boldsymbol{x})$ 关于 $\boldsymbol{x}$ 的一阶导数，为 $\times 1$ 列向量。

此时，我们的问题变为找到 $\Delta \boldsymbol{x}$ ，使得
$\frac{1}{2} \|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}\|^2$ 最小。将其展开

$\begin{aligned} \frac{1}{2} \|f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}\|^2&=\frac{1}{2} (f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x})^T(f(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}) \\ &=\frac{1}{2} (\|f(\boldsymbol{x}\|^2+2f(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}+\Delta \boldsymbol{x}^T\boldsymbol{J}(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}) \end{aligned} \tag{5-13}$

将 $\Delta \boldsymbol{x}$ 看做未知数，对其求导，并令其为零：

$f(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})+\boldsymbol{J}(\boldsymbol{x})\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}=\boldsymbol{0} \tag{5-14}$

得

$\underbrace{\boldsymbol{J}(\boldsymbol{x}) \boldsymbol{J}^{\mathrm{T}}}_{\boldsymbol{H}(\boldsymbol{x})}(\boldsymbol{x}) \Delta \boldsymbol{x}=\underbrace{-\boldsymbol{J}(\boldsymbol{x}) f(\boldsymbol{x})}_{\boldsymbol{g}(\boldsymbol{x})} \tag{5-15}$

即

$\boldsymbol{H}(\boldsymbol{x})\Delta \boldsymbol{x}=\boldsymbol{g}(\boldsymbol{x}) \tag{5-16}$

5.3.3 列文伯格-马夸尔特方法

以上方法都是用一阶或二阶泰勒展开式近似替代原函数，不可避免存在精度问题，因此我们定义一个指标 $\rho$ 来描述近似的好坏程度：

$\rho=\frac{f(\boldsymbol{x}+\boldsymbol{\Delta x})-f(\boldsymbol{x})}{\boldsymbol{J}(\boldsymbol{x})^T\Delta \boldsymbol{x}} \tag{5-17}$

其中，分子是实际下降的值，分母是近似下降的值。若 $\rho$ 接近于 1 ，则近似效果好；若 $\rho$ 太小，则说明实际减小的值远小于近似减小的值，即近似效果较差，需缩小近似范围；若 $\rho$ 太大，则说明实际减小的值大于近似减小的值，则需放大近似范围。

基于此，提出一个改进的高斯牛顿法：

——————————————————————————————————————————————————————

给定初始值 $\boldsymbol{x_0}$ ，以及初始优化半径 $\mu$ ；
对于第 $k$ 次迭代，在高斯牛顿法的基础上加上信赖区域，求解：

$\min _{\Delta \boldsymbol{x}_{k}} \frac{1}{2}\left\|f\left(\boldsymbol{x}_{k}\right)+\boldsymbol{J}\left(\boldsymbol{x}_{k}\right)^{\mathrm{T}} \Delta \boldsymbol{x}_{k}\right\|^{2}, \quad \text { s.t. } \quad\left\|\boldsymbol{D} \Delta \boldsymbol{x}_{k}\right\|^{2} \leqslant \mu \tag{5-18}$

其中 $\mu$ 是信赖区域的半径， $\boldsymbol{D}$ 是系数矩阵。

计算 $\rho$ ；
若 $\rho>\frac{3}{4}$ （需放大近似范围），则设置 $\mu=2\mu$ ；若 $\rho<\frac{1}{4}$ （需缩小近似范围），则设置 $\mu=0.5\mu$ ；
若 $\rho$ 在范围内，则认为近似效果好，令 $\boldsymbol{x}_{k+1}=\boldsymbol{x}_{k}+\Delta \boldsymbol{x}_{k}$ ；
若 $\Delta \boldsymbol{x}_{k}$ 足够小，则停止；否则返回第二步。

——————————————————————————————————————————————————————

对于式（5-18），构造拉格朗日函数

$\mathcal{L}\left(\Delta \boldsymbol{x}_{k}, \lambda\right)=\frac{1}{2}\left\|f\left(\boldsymbol{x}_{k}\right)+\boldsymbol{J}\left(\boldsymbol{x}_{k}\right)^{\mathrm{T}} \Delta \boldsymbol{x}_{k}\right\|^{2}+\frac{\lambda}{2}\left(\left\|\boldsymbol{D} \Delta \boldsymbol{x}_{k}\right\|^{2}-\mu\right) \tag{5-19}$