当前位置：首页 > news >正文

机器学习笔记之线性分类——高斯判别分析(二)最优参数求解

news 来源：原创 2024/5/22 10:23:43

机器学习笔记之线性分类——高斯判别分析之最优参数求解

引言
- 回顾：高斯判别分析的策略构建思路
- 求解过程
- 思考

引言

上一节介绍了高斯判别分析(Gaussain Discriminant Analysis)的策略构建思路，本节将基于该策略，对概率分布最优参数进行求解。

回顾：高斯判别分析的策略构建思路

高斯判别分析是典型的概率生成模型，其核心操作是将求解最优后验概率通过贝叶斯定理转化为先验概率分布与似然的乘积形式：
$\begin{aligned}\hat {\mathcal Y_{pred}} & = \mathop{\arg\max}\limits_{\mathcal Y_{pred} \in \{0,1\}} P(\mathcal Y_{pred} = i \mid \mathcal X) \\ & \propto \mathop{\arg\max}\limits_{\mathcal Y \in \{0,1\}}P(\mathcal X \mid \mathcal Y)P(\mathcal Y) \end{aligned}$
基于二分类假设，令 $\mathcal Y$ 服从 伯努利分布，则先验分布 $P(\mathcal Y)$ 的概率密度函数表示如下：
$P(\mathcal Y) = \phi^{\mathcal Y}(1 - \phi)^{1 - \mathcal Y}$
其中 $\phi$ 表示 $\mathcal Y$ 选择标签 $1$ 时的概率结果；在给定先验分布 $P(\mathcal Y)$ 条件下，令各类标签对应的似然 $P(\mathcal X \mid \mathcal Y=1),P(\mathcal X \mid \mathcal Y = 0)$ 均服从高斯分布：
$\begin{cases}\mathcal X \mid \mathcal Y=1 \sim \mathcal N(\mu_1,\Sigma) \\ \mathcal X \mid \mathcal Y=0 \sim \mathcal N(\mu_2,\Sigma) \end{cases}$
将上述逻辑合并，使用同一公式进行表示：
$P(\mathcal X \mid \mathcal Y) = \mathcal N(\mu_1,\Sigma)^{\mathcal Y} \mathcal N(\mu_2,\Sigma)^{1 - \mathcal Y}$

至此，先验概率 $P(\mathcal Y)$ ，似然 $P(\mathcal X \mid \mathcal Y)$ 均设定完毕，并包含四个 概率分布参数：
$\theta = \{\mu_1,\mu_2,\Sigma,\phi\}$
设似然函数为 $\mathcal L(\theta)$ ，似然函数表示如下：
注意：该函数本身时’联合概率分布‘，而不是纯粹的似然;
$\begin{aligned} \mathcal L(\theta) & = \log \prod_{i=1}^N P(x^{(i)},y^{(i)}) \\ & = \log \prod_{i=1}^N P(x^{(i)} \mid y^{(i)})P(y^{(i)}) \\ & = \sum_{i=1}^N \log P(x^{(i)} \mid y^{(i)}) + \log P(y^{(i)}) \end{aligned}$
将上述分布带入 $\mathcal L(\theta)$ ：
$\begin{aligned} \mathcal L(\theta) & = \sum_{i=1}^N \left\{\log\left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\mathcal N(\mu_2,\Sigma)^{1- y^{(i)}}\right] + \log \left[\phi^{y^{(i)}}(1- \phi)^{1 - y^{(i)}}\right]\right\} \\ & = \sum_{i=1}^N \left\{\log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right] + \log \left[\mathcal N(\mu_2,\Sigma)^{1 - y^{(i)}}\right] + \log \left[\phi^{y^{(i)}}(1- \phi)^{1 - y^{(i)}}\right]\right\} \end{aligned}$
最终，使用极大似然估计求解似然函数中的模型参数 $\theta$ ：
$\hat {\theta} = \mathop{\arg\max}\limits_{\theta} \mathcal L(\theta)$

求解过程

将 $\mathcal L(\theta)$ 完全展开，表示如下：
$\mathcal L(\theta) = \sum_{i=1}^N \log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right] + \sum_{i=1}^N \log \left[\mathcal N(\mu_2,\Sigma)^{1 - y^{(i)}}\right] + \sum_{i=1}^N \log \left[\phi^{y^{(i)}}(1- \phi)^{1 - y^{(i)}}\right]$

求解最优先验概率分布参数 $\phi$

$\mathcal L(\theta)$ 展开结果共包含3项，其中只有最后一项包含参数 $\phi$ ，因此则有：
$\begin{aligned}\hat {\phi} & = \mathop{\arg\max}\limits_{\phi} \mathcal L(\theta) \\ & = \mathop{\arg\max}\limits_{\phi} \sum_{i=1}^N \log \left[\phi^{y^{(i)}}(1- \phi)^{1 - y^{(i)}}\right] \end{aligned}$
将该式展开：
$\begin{aligned}\hat \phi & = \mathop{\arg\max}\limits_{\phi} \sum_{i=1}^N\left[\log \phi^{y^{(i)}} + \log (1 - \phi)^{1 - y^{(i)}}\right] \\ & = \mathop{\arg\max}\limits_{\phi} \sum_{i=1}^N\left[y^{(i)} \log \phi + (1 - y^{(i)})\log(1 - \phi)\right] \end{aligned}$
由于只有 $\phi$ 一个参数，因此令 $\mathcal L(\phi) = \sum_{i=1}^N\left[y^{(i)} \log \phi + (1 - y^{(i)})\log(1 - \phi)\right]$ ，并对 $\phi$ 求导：
由于分母不含 $i$ ,因此将连加号提到分母上。
$\begin{aligned}\frac{\partial \mathcal L(\phi)}{\partial \phi} & = \sum_{i=1}^N \frac{y^{(i)}(1 - \phi) - \phi(1 - y^{(i)})}{\phi(1 - \phi)} \\ & = \frac{\sum_{i=1}^Ny^{(i)}(1 - \phi) - \phi(1 - y^{(i)})}{\phi(1 - \phi)} \end{aligned}$
令 $\frac{\partial \mathcal L(\phi)}{\partial \phi} \triangleq 0$ ，则有分子为0：
$\sum_{i=1}^N \left[y^{(i)}(1 - \phi) - \phi(1 - y^{(i)})\right] = 0 \\ \hat \phi = \frac{1}{N} \sum_{i=1}^N y^{(i)}$
由于 $y^{(i)} \in \{0,1\}$ ，因此 $\hat \phi$ 可以理解为 标签为1的样本数量占整个样本数量的比率。令 $N_1 = \sum_{i=1}^Ny^{(i)}$ ，则有：
$\hat \phi = \frac{N_1}{N}$

求解最优似然分布的期望参数 $\mu$

最优解 $\hat {\mu_1}$ 的求解过程

由于不同似然对应的概率分布期望参数 $\mu$ 不同，因此这里以 $\mu_1$ 为例，求解 最优参数 $\hat \mu_1$ 。
$\mathcal L(\theta)$ 展开的三项结果中，只有第一项包含 $\mu_1$ ，因此则有：
$\begin{aligned}\hat {\mu_1} & = \mathop{\arg\max}\limits_{\mu_1} \mathcal L(\theta) \\ & = \mathop{\arg\max}\limits_{\mu_1} \sum_{i=1}^N \log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right] \\ & = \mathop{\arg\max}\limits_{\mu_1} \sum_{i=1}^N y^{(i)} \log \left[\mathcal N(\mu_1,\Sigma)\right] \end{aligned}$
由于 $\mathcal N(\mu_1,\Sigma)$ 是一个 $p$ 维高斯分布，因此 $\mathcal N(\mu_1,\Sigma)$ 的概率密度函数表示如下：
$\mathcal N(\mu_1,\Sigma) = \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(x^{(i)} - \mu_1)^{T}\Sigma^{-1}(x^{(i)} - \mu_1)}$
其中 $|\Sigma|$ 表示协方差矩阵 $\Sigma$ 的行列式。将概率密度函数带入上式，得到如下结果：
$\begin{aligned}\hat {\mu_1} & = \mathop{\arg\max}\limits_{\mu_1} \sum_{i=1}^N y^{(i)} \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(x^{(i)} - \mu_1)^{T}\Sigma^{-1}(x^{(i)} - \mu_1)}\right] \\ & = \mathop{\arg\max}\limits_{\mu_1} \sum_{i=1}^N \left\{ y^{(i)} \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\right] + y^{(i)} \log \left[e^{-\frac{1}{2}(x^{(i)} - \mu_1)^{T}\Sigma^{-1}(x^{(i)} - \mu_1)}\right] \right\} \\ & = \mathop{\arg\max}\limits_{\mu_1} \sum_{i=1}^N \left\{ y^{(i)} \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\right] + y^{(i)} \left[-\frac{1}{2}(x^{(i)} - \mu_1)^{T}\Sigma^{-1}(x^{(i)} - \mu_1)\right]\right\} \end{aligned}$
由于这里求解的是 $\hat {\mu_1}$ ，因此 $y^{(i)} \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\right]$ 可视为常数。令 $\mathcal L(\mu_1) = \sum_{i=1}^N y^{(i)} \left[-\frac{1}{2}(x^{(i)} - \mu_1)^{T}\Sigma^{-1}(x^{(i)} - \mu_1)\right]$ ，对 $\mathcal L(\mu_1)$ 展开结果如下：
$\begin{aligned} \mathcal L(\mu_1) & = -\frac{1}{2} \sum_{i=1}^N({x^{(i)}}^{T}\Sigma^{-1} - \mu_1^{T}\Sigma^{-1})(x^{(i)} - \mu_1) \\ & = -\frac{1}{2} \sum_{i=1}^N y^{(i)}({x^{(i)}}^{T}\Sigma^{-1}x^{(i)} - \mu_1^{T}\Sigma^{-1}x^{(i)} - x^{(i)}\Sigma^{-1}\mu_1^{T} + \mu_1^{T} \Sigma^{-1}\mu_1) \end{aligned}$
观察 $\mu_1^{T}\Sigma^{-1}x^{(i)}$ 和 $x^{(i)} \Sigma^{-1} \mu_1^{T}$ 这两项，其中 $x^{(i)}$ 和 $\mu_1$ 均是 $p$ 维列向量，而 $\Sigma^{-1}$ 是 $\times p$ 的方阵，所以 $\mu_1^{T}\Sigma^{-1}x^{(i)}$ 和 $x^{(i)} \Sigma^{-1} \mu_1^{T}$ 结果均是标量，且：
将两式展开后均是一个线性计算，根据乘法交换律，自然是相等的。
$\mu_1^{T}\Sigma^{-1}x^{(i)} = x^{(i)} \Sigma^{-1} \mu_1^{T} \in \mathbb R$
因此，将上述结果进行合并：
$\mathcal L(\mu_1) = -\frac{1}{2} \sum_{i=1}^N y^{(i)}({x^{(i)}}^{T}\Sigma^{-1}x^{(i)} - 2\mu_1^{T}\Sigma^{-1}x^{(i)} + \mu_1^{T} \Sigma^{-1}\mu_1)$
对 $\mu_1$ 求导：
需要学习‘矩阵论’的矩阵求导~
$\frac{\partial(\mu_1^{T} \Sigma^{-1}\mu_1)}{\partial \mu_1} = 2\Sigma^{-1}\mu_1 \\ \begin{aligned}\frac{\partial \mathcal L(\mu_1)}{\partial \mu_1} & = \frac{1}{2} \sum_{i=1}^N y^{(i)}(-2 \Sigma^{-1}x^{(i)} + 2\Sigma^{-1}\mu_1) \\ & = \sum_{i=1}^N y^{(i)}(-\Sigma^{-1}x^{(i)} + \Sigma^{-1}\mu_1) \\ & = \sum_{i=1}^N y^{(i)}\Sigma^{-1}(-x^{(i)} + \mu_1)\end{aligned}$
令 $\frac{\partial \mathcal L(\mu_1)}{\partial \mu_1} \triangleq 0$ ，则有：
$\begin{aligned} \Sigma^{-1}\left[\sum_{i=1}^N y^{(i)}(-x^{(i)} + \mu_1)\right] = 0 \\ \sum_{i=1}^N y^{(i)}\mu_1 = \sum_{i=1}^N y^{(i)}x^{(i)} \\ \hat {\mu_1} = \frac{\sum_{i=1}^N y^{(i)}x^{(i)}}{\sum_{i=1}^N y^{(i)}} \quad \quad \\ \end{aligned}$

最优解 $\hat {\mu_2}$ 的求解过程

同理， $\mu_2$ 的求解过程和 $\mu_1$ 的唯一区别是指数部分为 $1 - y^{(i)}$ ：
$\hat {\mu_2} = \mathop{\arg\max}\limits_{\mu_2} \sum_{i=1}^N \left\{(1 - y^{(i)}) \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\right] + (1 - y^{(i)})\left[-\frac{1}{2}(x^{(i)} - \mu_2)^{T}\Sigma^{-1}(x^{(i)} - \mu_2)\right] \right\}$
中间部分和 $\mu_1$ 相同，省略；
关于 $\mu_2$ 的最优解 $\hat {\mu_2}$ 表示如下：
和 $\mu_1$ 求解过程相比，只是将 $y^{(i)}$ 替换为 $1 - y^{(i)}$
$\hat {\mu_2} = \frac{\sum_{i=1}^N(1 - y^{(i)})x^{(i)}}{\sum_{i=1}^N(1 - y^{(i)})}$

求解最优似然分布的方差参数 $\Sigma$

场景描述

在求解 $\hat \Sigma$ 过程中，需要对样本集合进行划分：
$\mathcal X_1 = \{x^{(i)} \mid y^{(i)} = 1\}_{i=1,2,\cdots,N} \\ \mathcal X_2 = \{x^{(i)} \mid y^{(i)} = 0\}_{i=1,2,\cdots,N}$
记样本集合 $\mathcal X_1$ 的数量为 $N_1$ ，样本集合 $\mathcal X_2$ 的数量为 $N_2$ ，那么样本集合包含如下性质：
$N_1 + N_2 = N \\ \mathcal X_1 \cup \mathcal X_2 = \mathcal X$
样本均值 $\mu_{\mathcal X}$ ，各样本集合均值 $\mu_{\mathcal X_{i}}$ 、方差 $\mathcal S_{\mathcal X_i}$ 表示如下：
$\begin{aligned} \mu_{\mathcal X} & = \frac{1}{N} \sum_{i=1}^N x^{(i)}\\ \mu_{\mathcal X_i} & = \frac{1}{N_i} \sum_{x^{(j)} \in \mathcal X_i} x^{(j)} \quad (i=1,2) \\ \mathcal S_{\mathcal X_i} & = \frac{1}{N_i} \sum_{x^{(j)} \in \mathcal X_i}(x^{(j)} - \mu_{\mathcal X_i})(x^{(j)} - \mu_{\mathcal X_i})^{T} \quad (i=1,2) \end{aligned}$
基于上述场景，期望最优解 $\hat {\mu_1},\hat {\mu_2}$ 可以进一步化简：
$\begin{aligned} \hat {\mu_1} & = \frac{\sum_{i=1}^N y^{(i)}x^{(i)}}{\sum_{i=1}^N y^{(i)}} = \frac{\sum_{x^{(j)} \in \mathcal X_1} x^{(j)}}{N_1} = \frac{N_1}{N_1} \mu_{\mathcal X_1} = \mu_{\mathcal X_1}\\ \hat {\mu_2} & = \frac{\sum_{i=1}^N(1 - y^{(i)})x^{(i)}}{\sum_{i=1}^N(1 - y^{(i)})} = \frac{N \cdot \mu_{\mathcal X} - N_1 \cdot \mu_{\mathcal X_1}}{N - N_1} = \frac{N \cdot \mu_{\mathcal X} - N_1 \cdot \mu_{\mathcal X_1}}{N_2} \end{aligned}$

求解过程

继续观察 $\mathcal L(\theta)$ 的展开式，只有第一项与第二项包含 $\Sigma$ 。定义 $\mathcal L(\Sigma)$ ：
$\mathcal L(\Sigma) = \sum_{i=1}^N \log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right] + \sum_{i=1}^N \log \left[\mathcal N(\mu_2,\Sigma)^{1 - y^{(i)}}\right]$
观察其中任意一项，如： $\sum_{i=1}^N \log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right]$ ，如果 $y^{(i)}=0$ ，意味着 $\log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right] = 0$ 。可以看出，上述两项中均包含很多零项。结合场景描述，可以将上述公式化简为如下形式：
将所有的‘零项’全部剔除了。
$\mathcal L(\Sigma) = \sum_{x^{(j)} \in \mathcal X_1} \log \mathcal N(\mu_1,\Sigma) + \sum_{x^{(j)} \in \mathcal X_2} \log \mathcal N(\mu_2, \Sigma)$
观察其中任意一项：以 $\sum_{x^{(j)} \in \mathcal X_1} \log \mathcal N(\mu_1,\Sigma)$ 为例，将概率密度函数带入，将其展开：
$\begin{aligned} \sum_{x^{(j)} \in \mathcal X_1} \log \mathcal N(\mu_1,\Sigma) & = \sum_{x^{(j)} \in \mathcal X_1} \log \left\{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}e^{-\frac{1}{2}(x^{(j)}-\mu_1)^{T}\Sigma^{-1}(x^{(j)} - \mu_1)}\right\} \\ & = \sum_{x^{(j)} \in \mathcal X_1} \left\{\log \left[\frac{1}{(2\pi)^{\frac{p}{2}}}\right] + \log \left[|\Sigma|^{-\frac{1}{2}}\right] + \left[-\frac{1}{2} (x^{(j)} - \mu_1)^{T} \Sigma^{-1}(x^{(j)} - \mu_1)\right]\right\} \\ & = \sum_{x^{(j)} \in \mathcal X_1} \log\left[\frac{1}{(2\pi)^{\frac{p}{2}}}\right] + \sum_{x^{(j)} \in \mathcal X_1} \log \left[|\Sigma|^{-\frac{1}{2}}\right] + \sum_{x^{(j)} \in \mathcal X_1} \left[-\frac{1}{2} (x^{(j)} - \mu_1)^{T} \Sigma^{-1}(x^{(j)} - \mu_1)\right] \end{aligned}$
观察大括号中的三项，第一项不含 $\Sigma$ ，视为常数；仔细观察第三项：
$-\frac{1}{2} \sum_{x^{(j)} \in\mathcal X_1}(x^{(j)} - \mu_1)^{T} \Sigma^{-1}(x^{(j)} - \mu_1)$
已知 $x^{(j)},\mu_1$ 均是 $p$ 维向量，则 $(x^{(j)} - \mu_1)^{T}$ 的维度是 $\times p$ ； $\Sigma^{-1}$ 是协方差矩阵的逆矩阵，是 $\times p$ 维度的方阵； $(x^{(j)} - \mu_1)$ 的维度自然是 $\times 1$ 。
因此， $(x^{(j)} - \mu_1)^{T} \Sigma^{-1}(x^{(j)} - \mu_1)$ 本身就是一个实数。而实数本身也是一个方阵( $\times 1$ 的方阵)。在这里引入 线性代数中的秩，记作 $t r$ ——实数的秩即实数本身。
可以将第三项表示如下：
$-\frac{1}{2}\sum_{x^{(j)} \in \mathcal X_1} tr\left[(x^{(j)} - \mu_1)^{T}\Sigma^{-1}(x^{(j)} - \mu_1)\right]$
根据矩阵的秩的性质，可以将上述结果表示如下：
矩阵A,B,C能够相乘并且相乘结果是方阵的条件下：tr(ABC) = tr(CAB) = tr(BCA)
由于 $x^{(j)} - \mu_1)^{T}\Sigma^{-1}(x^{(j)} - \mu_1)$ 结果是实数,因此 $\sum_{x^{(j)} \in \mathcal X_1}$ 放到tr的里面还是外面没有任何区别。
$\begin{aligned} -\frac{1}{2} \sum_{x^{(j)} \in \mathcal X_1} tr\left[( x^{(j)} - \mu_1)^{T}\Sigma^{-1}(x^{(j)} - \mu_1) \right] & = -\frac{1}{2} \sum_{x^{(j)} \in \mathcal X_1} tr\left[(x^{(j)} - \mu_1)( x^{(j)} - \mu_1)^{T}\Sigma^{-1}\right] \\ & = -\frac{1}{2} tr\left[\sum_{x^{(j)} \in \mathcal X_1} (x^{(j)} - \mu_1)( x^{(j)} - \mu_1)^{T}\Sigma^{-1}\right] \end{aligned}$
又因为 $\Sigma^{-1}$ 中不含 $j$ ，因此可以将 $\Sigma^{-1}$ 提出来：
$-\frac{1}{2} tr\left[\left(\sum_{x^{(j)} \in \mathcal X_1} (x^{(j)} - \mu_1)( x^{(j)} - \mu_1)^{T}\right)\Sigma^{-1}\right]$
观察： $\sum_{x^{(j)} \in \mathcal X_1} (x^{(j)} - \mu_1)( x^{(j)} - \mu_1)^{T}$ 和标签为1的样本的协方差矩阵仅差 $N$ 倍。

记标签为1样本的协方差矩阵为 $\mathcal S_1$ ，标签为0样本的协方差矩阵为 $\mathcal S_2$ 。上述第三项可以将其表示为：
$-\frac{1}{2} N_1 \cdot tr(\mathcal S_1 \cdot \Sigma^{-1})$
因此， $\sum_{x^{(j)} \in \mathcal X_1} \log \mathcal N(\mu_1,\Sigma)$ 可以表示为：
$-\frac{1}{2} N_1 \cdot \log |\Sigma| - \frac{1}{2} N_1 \cdot tr\left(\mathcal S_1 \cdot \Sigma^{-1}\right) + \mathcal C_1 \quad \left(\mathcal C_1 = \sum_{x^{(j)} \in \mathcal X_1} \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}}\right]\right)$
同理， $\sum_{x^{(j)} \in \mathcal X_2} \log \mathcal N(\mu_2,\Sigma)$ 可以表示为：
$-\frac{1}{2} N_2 \cdot \log |\Sigma| - \frac{1}{2} N_2 \cdot tr\left(\mathcal S_2 \cdot \Sigma^{-1}\right) + \mathcal C_2 \quad \left(\mathcal C_2 = \sum_{x^{(j)} \in \mathcal X_2} \log \left[\frac{1}{(2\pi)^{\frac{p}{2}}}\right]\right)$
至此， $\mathcal L(\Sigma)$ 可以表示如下：
$\begin{aligned} \mathcal L(\Sigma) & = \sum_{x^{(j)} \in \mathcal X_1} \log \mathcal N(\mu_1,\Sigma) + \sum_{x^{(j)} \in \mathcal X_2} \log \mathcal N(\mu_2,\Sigma) \\ & = -\frac{1}{2}(N_1 + N_2) \log |\Sigma| - \frac{1}{2}N_1 \cdot tr(\mathcal S_1 \cdot \Sigma^{-1}) - \frac{1}{2}N_2 \cdot tr(\mathcal S_2 \cdot \Sigma^{-1}) + (\mathcal C_1 + \mathcal C_2) \\ & = -\frac{1}{2} \left[N \log |\Sigma| + N_1 \cdot tr(\mathcal S_1 \cdot \Sigma^{-1}) + N_2 \cdot tr(\mathcal S_2 \cdot \Sigma^{-1})\right] + \mathcal C \quad (\mathcal C = \mathcal C_1 + \mathcal C_2) \end{aligned}$

基于上式，对 $\Sigma$ 进行求导：
求导过程中，需要注意‘行列式的导数’与‘秩的导数’:
$\frac{\partial tr(AB)}{\partial A} = B^{T} \\ \frac{\partial |A|}{\partial A} = |A|\cdot A^{-1}$
求导结果如下：
$\begin{aligned} \frac{\partial \mathcal L(\Sigma)}{\partial \Sigma} & = -\frac{1}{2}(N \cdot \frac{|\Sigma| \cdot\Sigma^{-1}}{|\Sigma|} + N_1 \cdot \mathcal S_1^{T}\cdot (-1) \Sigma^{-2} + N_2 \cdot \mathcal S_2^{T}\cdot (-1) \Sigma^{-2}) \\ & = -\frac{1}{2}[N\cdot \Sigma^{-1} - N_1 \cdot S_1^{T} \cdot \Sigma^{-2} - N_2 \cdot S_2^{T} \cdot \Sigma^{-2}] \end{aligned}$
由于 $\mathcal S_1,\mathcal S_2$ 均为协方差矩阵，因此它们是实对称矩阵。即：
$\mathcal S_1^{T} = \mathcal S_1,\mathcal S_2^{T} = \mathcal S_2$
$\frac{\partial \mathcal L(\Sigma)}{\partial \Sigma}$ 最终表示为：
$\frac{\partial \mathcal L(\Sigma)}{\partial \Sigma} = -\frac{1}{2}[N\cdot \Sigma^{-1} - N_1 \cdot S_1 \cdot \Sigma^{-2} - N_2 \cdot S_2 \cdot \Sigma^{-2}]$
令 $\frac{\partial \mathcal L(\Sigma)}{\partial \Sigma} \triangleq 0$ ，则有：
$N\cdot \Sigma^{-1} - N_1 \cdot S_1 \cdot \Sigma^{-2} - N_2 \cdot S_2 \cdot \Sigma^{-2} = 0$
等式两边同乘 $\Sigma^2$ ,可得：
$\Sigma - N_1 \mathcal S_1 - N_2 \mathcal S_2 = 0 \\ \hat \Sigma = \frac{N_1\mathcal S_1 + N_2 \mathcal S_2}{N}$

思考

这里在定义似然的概率分布时就定义 $\Sigma$ 是公用的，在 $\hat \Sigma$ 的求解结果中发现，从理论角度观察， $\mathcal S_1,\mathcal S_2$ 本质上应该是相同的。如果将 $\mathcal S_1 = \mathcal S_2$ 代入上式会发现 就是一个恒等式。但之所以有差异，自然是 高斯分布产生样本的随机性导致的。

下一节将介绍另一种概率生成模型——朴素贝叶斯。
相关参考：
机器学习-线性分类8-高斯判别分析(Gaussian Discriminant Analysis)-模型求解(求协方差)
机器学习-线性分类7-高斯判别分析(Gaussian Discriminant Analysis)-模型求解(求期望)