EM算法 | 彩潭有鲤的札记

EM算法也称期望最大化（Expectation-Maximum）算法，它是一个基础算法，是很多机器学习领域算法的基础，比如隐式马尔科夫算法（HMM），LDA主题模型的变分推断等等。

从样本观察数据中，找出样本的模型参数，经常用的方法就是极大化模型分布的对数似然函数。

但是在一些情况下，得到的观察数据有未观察到的隐含数据，此时未知的有隐含数据和模型参数，因而无法直接用极大化对数似然函数得到模型分布的参数。怎么办呢？这就是EM算法可以派上用场的地方了。

EM算法解决这个的思路是使用启发式的迭代方法，既然无法直接求出模型分布参数，那么可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解模型参数（EM算法的M步)。由于之前的隐藏数据是猜测的，所以此时得到的模型参数一般还不是想要的结果。不过没关系，基于当前得到的模型参数，继续猜测隐含数据（EM算法的E步），然后继续极大化对数似然，求解模型参数（EM算法的M步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

EM算法是迭代求解最大值的算法，同时算法在每一次迭代时分为两步，E步和M步。一轮轮迭代更新隐含数据和模型分布参数，直到收敛，即得到需要的模型参数。

一个最直观了解EM算法思路的是K-Means算法，在K-Means聚类时，每个聚类簇的质心是隐含数据。会假设个初始化质心，即EM算法的E步；然后计算得到每个样本最近的质心，并把样本聚类到最近的这个质心，即EM算法的M步。重复这个E步和M步，直到质心不再变化为止，这样就完成了K-Means聚类。

对于个样本观察数据中，找出样本的模型参数，极大化模型分布的对数似然函数如下：

如果观察数据有未观察到的隐含数据，此时极大化模型分布的对数似然函数如下：

上面这个式子是没有办法直接求出的，因此需要一些特殊的技巧。

首先对这个式子进行缩放如下：

上面引入了一个未知的新的分布，用到了Jensen不等式：

或者说由于对数函数是凹函数，所以有:

如果是凹函数

此时如果要满足Jensen不等式的等号，则有：

为常数

所以有和成正比

由于是一个分布，所以满足：

那么也是一个常数

可以得到：

如果 , 则是我们的包含隐藏数据的对数似然的一个下界。如果我们能极大化这个下界，则也在尝试极大化我们的对数似然，即需要最大化下式：

去掉上式中为常数的部分，则需要极大化的对数似然下界为：

上式也就是EM算法的M步，那E步呢？注意到上式中是一个分布，因此可以理解为基于条件概率分布的期望。

输入：观察数据，联合分布 , 条件分布 , 最大迭代次数

1) 随机初始化模型参数的初值

2） for j from 1 to J开始EM算法迭代：

a) E步：计算联合分布的条件概率期望：

b) M步：极大化 ,得到 :

c) 如果已收敛，则算法结束。否则继续回到步骤a)进行E步迭代

输出：模型参数

EM算法的流程并不复杂，但是还有两个问题需要思考：

EM算法能保证收敛吗？ EM算法如果收敛，那么能保证收敛到全局最大值吗？

要证明EM算法收敛，则需要证明我们的对数似然函数的值在迭代的过程中一直在增大，即：

由于

令：

上两式相减得到：

在上式中分别取为和，并相减得到：

要证明EM算法的收敛性，只需要证明上式的右边是非负的即可。

由于使得极大，因此有:

而对于第二部分，有：

。

至此，得到了：，证明了EM算法的收敛性。

从上面的推导可以看出，EM算法可以保证收敛到一个稳定点，但是却不能保证收敛到全局的极大值点，因此它是局部最优的算法，当然，如果优化目标是凸的，则EM算法可以保证收敛到全局最大值，这点和梯度下降法这样的迭代算法相同。

如果从算法思想的角度来思考EM算法，可以发现算法里已知的是观察数据，未知的是隐含数据和模型参数，在E步，所做的事情是固定模型参数的值，优化隐含数据的分布，而在M步，所做的事情是固定隐含数据分布，优化模型参数的值。比较下其他的机器学习算法，其实很多算法都有类似的思想。比如SMO算法，坐标轴下降法, 都使用了类似的思想来求解问题。

EM算法要解决的问题

EM算法的推导

EM算法流程

EM算法的收敛性思考

EM算法的一些思考