当前位置：首页 > news >正文

机器学习笔记之高斯混合模型(四)EM算法求解高斯混合模型(M步操作)

news 来源：原创 2024/5/3 20:21:38

机器学习笔记之高斯混合模型——EM算法求解高斯混合模型【M步操作】

引言
- 回顾：EM算法求解高斯混合模型的E步操作
- EM算法M步操作
- - 求解过程

引言

上一节介绍了使用EM算法求解高斯混合模型参数的E步操作，本节将继续介绍后续的M步操作。

回顾：EM算法求解高斯混合模型的E步操作

高斯混合模型 $P(\mathcal X)$ 引入隐变量 $\mathcal Z$ 后的表示结果如下：
$P(\mathcal X) = \sum_{i=1}^{\mathcal K} p_k \cdot \mathcal N(\mathcal X \mid \mu_k,\Sigma_k)$
$p_k$ 表示隐变量 $\mathcal Z$ 选择具体某项离散参数 $z_k$ 的概率分布：
$p_k = P(\mathcal Z = z_k)$
$\mathcal N(\mathcal X \mid \mu_k,\Sigma_k)$ 表示隐变量 $\mathcal Z = z_k$ 条件下，样本 $\mathcal X$ 服从均值为 $\mu_k$ ，协方差为 $\Sigma_k$ 的高斯分布：
$\mathcal X \mid \mathcal Z = z_k \sim \mathcal N(\mathcal X \mid \mu_k,\Sigma_k)$
对应的联合概率分布 $P(\mathcal X,\mathcal Z)$ 表示如下：
$\begin{aligned} P(\mathcal X,\mathcal Z) & = P(\mathcal Z)\cdot P(\mathcal X \mid \mathcal Z) \\ & = p_{\mathcal Z} \cdot \mathcal N(\mathcal X \mid \mu_{\mathcal Z},\Sigma_{\mathcal Z}) \\ & = \prod_{i=1}^N p_{z^{(i)}} \cdot \mathcal N(\mathcal X \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}}) \end{aligned}$
其中 $p_{z^{(i)}}$ 表示 $x^{(i)}$ 属于各高斯分布的概率组成的向量。数学符号表示如下：
$p_j^{(i)}$ 表示样本 $x^{(i)}$ 属于离散常量 $z_j$ 对应概率分布 $\mathcal N(\mu_j,\Sigma_j)$ 的概率结果。
$p_{z^{(i)}} = \left(p_1^{(i)},p_2^{(i)},\cdots,p_{\mathcal K}^{(i)}\right)^{T} \\ p_{j}^{(i)} = P(x^{(i)} \to z_j) = P(x^{(i)} \in \mathcal N(\mu_j,\Sigma_j)) \quad (j =1,2,\cdots,\mathcal K)$
同理， $\mu_{z^{(i)}}$ 表示 $x^{(i)}$ 属于各高斯分布的期望组成的向量。数学符号表示如下：
$\mu_j^{(i)}$ 表示 $x^{(i)}$ 属于离散常量 $z_j$ 对应概率分布 $\mathcal N(\mu_j,\Sigma_j)$ 的期望信息。
$\mu_{z^{(i)}} = \left(\mu_1^{(i)},\mu_2^{(i)},\cdots,\mu_{\mathcal K}^{(i)}\right)^{T} \\ \mu_j^{(i)} = \mu_j \in x^{(i)} \sim \mathcal N(\mu_j,\Sigma_j) \quad (j=1,2,\cdots,\mathcal K)$
$\Sigma_{z^{(i)}}$ 表示 $x^{(i)}$ 属于各高斯分布的协方差组成的向量。数学符号表示如下：
$\Sigma_j^{(i)}$ 表示 $x^{(i)}$ 属于离散常量 $z_j$ 对应概率分布 $\mathcal N(\mu_j,\Sigma_j)$ 的协方差信息。
$\Sigma_{z^{(i)}} = \left(\Sigma_1^{(i)},\Sigma_2^{(i)},\cdots,\Sigma_{\mathcal K}^{(i)}\right)^{T} \\ \Sigma_j^{(i)} = \Sigma_j \in x^{(i)} \sim \mathcal N(\mu_j,\Sigma_j) \quad (j=1,2,\cdots,\mathcal K)$
关于隐变量的后验概率 $P(\mathcal Z \mid \mathcal X)$ 表示如下：
$\begin{aligned} P(\mathcal Z \mid \mathcal X) & = \frac{P(\mathcal X,\mathcal Z)}{P(\mathcal X)} \\ & = \frac{\prod_{i=1}^Np_{z^{(i)}} \cdot \mathcal N(\mathcal X \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{i=1}^{\mathcal K} p_k \cdot \mathcal N(\mathcal X \mid \mu_k,\Sigma_k)} \end{aligned}$
至此，E步操作表示如下：
令 $\mathbb E_{\mathcal Z \mid \mathcal X,\theta^{(t)}} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]$ 是关于 $\theta,\theta^{(t)}$ 的函数。即：
$\begin{aligned} \mathcal L(\theta,\theta^{(t)}) & = \mathbb E_{\mathcal Z \mid \mathcal X,\theta^{(t)}} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right] \\ & = \int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta^{(t)})\log P(\mathcal X,\mathcal Z \mid \theta) d\mathcal Z \end{aligned}$
经过E步的求解过程，求得最终表示结果如下：
$\mathcal L(\theta,\theta^{(t)}) = \sum_{i=1}^N \sum_{z^{(i)}} \left[\log p_{z^{(i)}} \cdot\mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})\right] \cdot \frac{p_{z^{(i)}} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{k=1}^{\mathcal K} p_k \cdot \mathcal N(x^{(i)} \mid \mu_k,\Sigma_k)}$

EM算法M步操作

重新观察E步结果：
$\mathcal L(\theta,\theta^{(t)}) = \sum_{i=1}^N \sum_{z^{(i)}} \left[\log p_{z^{(i)}} \cdot\mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})\right] \cdot \frac{p_{z^{(i)}} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{k=1}^{\mathcal K} p_k \cdot \mathcal N(x^{(i)} \mid \mu_k,\Sigma_k)}$

其中 $P(\mathcal X,\mathcal Z \mid \theta)$ 部分表示如下：
$\log P(x^{(i)},z^{(i)} \mid \theta) = \log \left[p_{z^{(i)}} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})\right]$
$\theta$ 具体指(共三项)：
$p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}} \quad (i=1,2,\cdots,N)$
$P(\mathcal Z \mid \mathcal X,\theta^{(t)})$ 部分表示如下：
$P(\mathcal z^{(i)} \mid z^{(i)},\theta^{(t)}) = \frac{p_{z^{(i)}} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})}{\sum_{k=1}^{\mathcal K} p_k \cdot \mathcal N(x^{(i)} \mid \mu_k,\Sigma_k)}$
$\theta^{(t)}$ 具体指(共6项)：
$p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}} \quad (i=1,2,\cdots,N) \\ p_k,\mu_k,\Sigma_k \quad (k=1,2,\cdots,\mathcal K)$
由于 $\theta^{(t)}$ 是上一次迭代得到的参数结果，是已知量；因此将 $\mathcal L(\theta,\theta^{(t)})$ 中的 $\theta^{(t)}$ 项修正过来：
例如 $p_{z^{(i)}}^{(t)}$ 是 $\theta^{(t)}$ 的一个解，区别于对应 $\theta$ 的解 $p_{z^{(i)}}$ 。
$\mathcal L(\theta,\theta^{(t)}) = \sum_{z^{(i)}} \sum_{i=1}^N\left[\log p_{z^{(i)}} \cdot\mathcal N(x^{(i)} \mid \mu_{z^{(i)}},\Sigma_{z^{(i)}})\right] \cdot \frac{p_{z^{(i)}}^{(t)} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}}^{(t)},\Sigma_{z^{(i)}}^{(t)})}{\sum_{k=1}^{\mathcal K} p_k^{(t)} \cdot \mathcal N(x^{(i)} \mid \mu_k^{(t)},\Sigma_k^{(t)})}$
实际上 $\frac{p_{z^{(i)}}^{(t)} \cdot \mathcal N(x^{(i)} \mid \mu_{z^{(i)}}^{(t)},\Sigma_{z^{(i)}}^{(t)})}{\sum_{k=1}^{\mathcal K} p_k^{(t)} \cdot \mathcal N(x^{(i)} \mid \mu_k^{(t)},\Sigma_k^{(t)})}$ 是由 $\theta^{(t)}$ 构成的量，它的结果不会对当前迭代步骤 $\theta$ 的最优值产生影响。因此，在这里将其缩写成 $P(z^{(i)} \mid x^{(i)},\theta^{(t)})$ 。
由于 $z_i$ 本质上是样本 $x^{(i)}$ 所有可能属于的高斯分布组成的向量，即：
$z^{(i)} = (z_1^{(i)},z_2^{(i)},\cdots,z_{\mathcal K}^{(i)})^{T}$
并且对应的 $p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}}$ 分别表示如下：
查看详情移步至传送门
$p_{z^{(i)}} = (p_1^{(i)},p_2^{(i)},\cdots,p_{\mathcal K}^{(i)})^{T} \\ \mu_{z^{(i)}} = (\mu_1^{(i)},\mu_2^{(i)},\cdots,\mu_{\mathcal K}^{(i)})^{T} \\ \Sigma_{z^{(i)}} = (\Sigma_1^{(i)},\Sigma_2^{(i)},\cdots,\Sigma_{\mathcal K}^{(i)})^{T}$
因此， $\sum_{z^{(i)}} p_{z^{(i)}}$ 分别表示如下：
$\sum_{z^{(i)}} p_{z^{(i)}} = \sum_{k=1}^{\mathcal K} p_k^{(i)} \quad \sum_{z^{(i)}} \mu_{z^{(i)}} = \sum_{k=1}^{\mathcal K} \mu_{k}^{(i)} \quad \sum_{z^{(i)}} \Sigma_{z^{(i)}} = \sum_{k=1}^{\mathcal K} \Sigma_{k}^{(i)}$
基于上述公式，对 $\mathcal L(\theta,\theta^{(t)})$ 进行变换：
$\begin{aligned} \mathcal L(\theta,\theta^{(t)}) & = \sum_{k=1}^{\mathcal K} \sum_{i=1}^{N} \log \left[p_k^{(i)} \cdot \mathcal N(x^{(i)} \mid \mu_k^{(i)},\Sigma_{k}^{(i)})\right] P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) \\ & = \sum_{k=1}^{\mathcal K} \sum_{i=1}^{N} \left[\log p_k^{(i)} + \log \mathcal N(x^{(i)} \mid \mu_{k}^{(i)},\Sigma_k^{(i)})\right]P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) \end{aligned}$
我们以求解 $p_k^{(i)}$ 在当前时刻的最优解 $p_k^{(i)}]^{(t+1)}$ 为例。上述式子中只有方括号内第一项包含 $p_k^{(i)}$ ，因此则有：
$[p_k^{(i)}]^{(t+1)} = \mathop{\arg\max}\limits_{p_k^{(i)}}\sum_{k=1}^{\mathcal K} \sum_{i=1}^{N} \log p_k^{(i)} P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)})$
并且 $p_k^{(i)}$ 是概率结果，因此 $p_k^{(i)}$ 需要满足约束条件：
$\sum_{k=1}^{\mathcal K} p_k^{(i)} = 1$
至此，求解 $p_{z^{(i)}}$ 的最优解 $p_{z^{(i)}}^{(t+1)}$ 即：
$p_{z^{(i)}}^{(t+1)} = ([p_1^{(i)}]^{(t+1)},[p_2^{(i)}]^{(t+1)},\cdots,[p_{\mathcal K}^{(i)}]^{(t+1)})^{T}$
其中任意一项 $[p_k^{(i)}]^{(t+1)}(k=1,2,\cdots,\mathcal K)$ 使用如下优化函数进行表示：
$\begin{cases} \mathop{\arg\max}\limits_{p_k^{(i)}}\sum_{k=1}^{\mathcal K} \sum_{i=1}^{N} \log p_k^{(i)} \cdot P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) \\ s.t. \quad \sum_{k=1}^{\mathcal K} p_k^{(i)} = 1 \end{cases}$

求解过程

使用拉格朗日乘数法进行求解：

构建拉格朗日函数 $\mathcal S(p_k^{(i)},\lambda)$ ：
$\mathcal S(p_k^{(i)},\lambda) = \sum_{k=1}^{\mathcal K}\sum_{i=1}^{N} \log p_k^{(i)} \cdot P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) + \lambda (\sum_{k=1}^{\mathcal K} p_k^{(i)} - 1)$
拉格朗日函数 $\mathcal S(p_k^{(i)},\lambda)$ 对 $p_k^{(i)}$ 求偏导：
观察第一个连加号 $\sum_{k=1}^{\mathcal K}$ ,只有唯一一个 $k$ 和 $p_k^{(i)}$ 相关，其余均为常数;
$\frac{\partial \mathcal S(p_k^{(i)},\lambda)}{\partial p_k^{(i)}} = \sum_{i=1}^N \frac{1}{p_k^{(i)}}\cdot P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) +\lambda$
令 $\frac{\partial \mathcal S(p_k^{(i)},\lambda)}{\partial p_k^{(i)}} \triangleq 0$ ，等式两端同乘 $p_k^{(i)}$ ：
$\sum_{i=1}^N P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) +p_k^{(i)} \lambda = 0$
对 $\forall k \in \{1,2,\cdots,\mathcal K\}$ ，均进行求导并等于0，则有：
$\sum_{i=1}^N\sum_{k=1}^{\mathcal K} P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) +\sum_{k=1}^{\mathcal K} p_k^{(i)} \lambda = 0 + \cdots + 0 = 0$
其中：
条件概率密度积分~约束条件~
$\sum_{k=1}^{\mathcal K} P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)}) = 1 \\ \sum_{k=1}^{\mathcal K} p_k^{(i)} = 1$
整理得：
$\lambda = -N$
因此，将 $\lambda = -N$ 带回原式，则有：
$[p_k^{(i)}]^{(t+1)} = \frac{1}{N} \sum_{i=1}^N P(z^{(i)} = z_k \mid x^{(i)},\theta^{(t)})$
基于上式，可以求出 $[p_1^{(i)}]^{(t+1)},[p_2^{(i)}]^{(t+1)},\cdots,[p_{\mathcal K}^{(i)}]^{(t+1)}$
因而最终求解隐变量 $z^{(i)}$ 的后验概率分布结果 $p_{z^{(i)}}^{(t+1)}$ ：
$p_{z^{(i)}}^{(t+1)} = \left([p_1^{(i)}]^{(t+1)},[p_2^{(i)}]^{(t+1)},\cdots,[p_{\mathcal K}^{(i)}]^{(t+1)}\right)^{T}$