3.2.2 最大似然估计

引入

回顾洒水问题，我们根据 $p(O 1 \mid C 1)=0.8>p(O 1 \mid C 2)=0.6>p(O 1 \mid C 3)=0.2$ ，作出了“当门口有水时，最有可能是下雨了”的推断。如果使用上一节最后所提到的最大似然估计的视角来看待这个问题，这个问题可以被表述为 “如果 $\theta$ 的值域为集合 $（C1，C2，C3）$ ，其中 $L(\theta)=\left(d_1 = 有水 \mid \theta\right)$ ，那么当 $\theta$ 为何值时， $L(\theta)$ 最大？”。对于这个问题，我们当然可以轻松地推出，要使得 $L(\theta)$ 最大，那么应该选择 $\theta = C_1(下雨)$ 。

在这个过程中，我们完成了一次对离散分布下的似然函数进行最大似然估计。那么，严格上最大似然估计该如何定义？在刚刚的例子中，我们只关注单个数据点( $d_1 = 有水$ )，但在实践中我们通常面对的都是一系列数据点，如何对一系列实验数据的似然函数进行极大似然估计呢？

最大似然估计的基本概念

3.n 最大似然估计

已知数据 $D = [d_1, d_2, ...d_i]$ ，求其背后的高斯分布 $\theta=(u, \sigma)$ ，使其似然函数 $L(\theta)=\prod_{i=1}^n p\left(d_i \mid \theta\right)$ 取得最大值，即求解 $\hat{\theta}=\langle\hat{u}, \hat{\sigma}\rangle=\underset{\theta}{\arg \max } L(\theta)$ ，该过程被称为最大似然估计。

在第二章中，我们学习了优化，在优化问题中我们需要使得损失函数最小。而实际上求解最大似然估计的过程同样也是优化过程。不过在具体操作上，两者存在少许差别：我们通常会对似然函数进行一些转换。

首先，因为概率 $p\left(d_i \mid \theta\right)$ 一定小于1，那么连乘过后往往非常小。为了避免在数值计算过程中的数据下溢，通常我们使用 $\log$ 函数进行变换。

一方面 $\log$ 变换不改变函数的单调性，如下图所示， $x^2$ 在 $x=0$ 处取得最小值， $ln(x^2)$ 也在 $x=0$ 处取得最小值。

另一方面， $\log$ 函数的导数是它的倒数，这会使得在反向传播算法中计算梯度变得更加方便。

进行 $\log$ 变换后，我们可以得到对数似然函数：

L L(\theta)=\log (L(\theta))=\log \left(\prod_{i=1}^n p\left(d_i \mid \theta\right)\right)=\sum_i^n \log \left(p\left(d_i \mid \theta\right)\right)\qquad\qquad\tag{3.1}

其次， $p\left(d_i \mid \theta\right)$ 小于1，则 $\log(p(d_i \mid \theta))$ 小于0，要使得小于0的 $\sum_i^n \log (p(d_i|\theta))$ 取得最大值，就等价于求 $-\sum_i^n \log (p(d_i|\theta))$ 的最小值(或许有点绕，但大家可以暂停一下理清思路)。

这样，我们再在对数似然函数的前面加个负号，就得到了负对数似然函数

N L L(\theta)= - \log (L(\theta)) = - \log \left(\prod_{i=1}^n p\left(d_i \mid \theta\right)\right)=-\sum_i^n \log \left(p\left(d_i \mid \theta\right)\right)\qquad\qquad\tag{3.2}

此时有，

\hat{\theta}=\langle\hat{u}, \hat{\sigma}>=\underset{\theta}{\arg \max } L(\theta)=\underset{\theta}{\arg \max } L L(\theta)=\underset{\theta}{\arg \min } N L L(\theta)\qquad\qquad\tag{3.3}

至此，又回到了之前介绍过的优化问题，如何使得函数取得最小值，这样就能使用我们熟悉的python minimize函数进行求解了！

下面我们对极大似然估计进行技术总结：

极大似然估计的步骤

根据数据生成模型写出基于参数的似然函数（此步为最关键也是最难的一步）
将得到的似然函数变换为负对数似然函数
利用matlab或者python等优化软件的数值优化方法求解。例如python里面的minimize函数，matlab里面的fminsearch函数

最大似然估计与最小二乘法

在先前的章节中，我们已经学习了求解简单线性模型的最小二乘法。最小二乘法是：在线性回归中，我们通过最小化误差的平方和找到最能拟合数据的

那么最大似然估计跟最小二乘法的关系是什么，我们先给出一个结论：

在线性回归中，当残差(或称为噪音)满足正态分布的条件下，最大似然估计和最小二乘法在数学上是等价的

现在，我们来一步步证明这个结论：

考虑一个简单线性模型： $y=a x+b$ , 其中残差 $\epsilon$ 满足均值为0，标准差为 $\sigma$ 的高斯分布(所以假定 $\sigma$ 已知)

我们从这个模型中得到了一组数据, 自变量为 $X=\left[x_1, x_2, \ldots, x_i, \ldots\right]$ ，因变量为 $Y=\left[y_1, y_2, \ldots, y_i, \ldots\right]$ ，为找到能够最佳拟合这一组数据的线性模型，我们使用最小二乘法对模型参数进行求解：

\underset{a, b}{\arg \min } \sum_i^n\left(y_i-\left(a x_i+b\right)\right)^2 \qquad\qquad\tag{3.4}

那么，在最大似然估计的情况下，我们要怎么来表示这个求解过程？

现在，我们将参数 $a, b$ 看作一个参数对 $\theta$ ，将数据 $x_i, y_i$ 看作一个数据对 $d_i$ ，整个数据集用 $D$ 表示。结合先前的内容，我们可以写作：

已知数据 $D = [d_1, d_2, ...d_i]$ ，其中 $d_i = (x_i, y_i)$ ，求其背后的高斯分布 $\theta=(a, b)$ ，使其负对数似然函数取得最小值

但这么说并不是很直观，你或许会想，为什么这些数据点 $(x_i,y_i)$ 背后跟高斯分布有关，跟高斯分布有关的不是残差吗？

通常来说，我们这么来表示线性模型：

y = ax+ b +\epsilon \;\;\;\;\;\epsilon \sim N(0,\sigma^2)

但这可以等价写为：

y \sim N(\mu,\sigma^2)\;\;\;\;\; \mu = ax+b

因此，我们完全可以用高斯分布来表示线性模型

那么很显然，在给定的 $\mu(即a, b), \sigma$ 下，取到数据点 $d_i = (x_i, y_i)$ 的条件概率可以表示为：

p(d_i|\theta) = p(y_i|x_i,a,b) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{\left(y_i-\mu\right)^2}{2 \sigma^2}\right)

代入负对数似然函数，可以表示为：

\begin{aligned} N L L(\theta) & =-L L(\theta) \\ & =-\log (L(\theta)) \\ & =-\log \left(\prod_{i=1}^n p\left(d_i \mid \theta\right)\right) \\ & =-\sum_i^n \log \left(p\left(d_i \mid \theta\right)\right) \\ & =-\sum_i^n \log \left(\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{\left(y_i-\mu\right)^2}{2 \sigma^2}\right)\right)\\ & = \sum_i^n\left(-\log \left(\frac{1}{\sqrt{2 \pi \sigma^2}}\right)+\frac{\left(y_i-\mu\right)^2}{2 \sigma^2}\right) \\ \end{aligned}

在 $\sigma$ 已知的情况下，其中的 $-\log \left(\frac{1}{\sqrt{2 \pi \sigma^2}}\right)$ , $2 \sigma^2$ 都为常数，在计算中可以直接省去

\begin{aligned} \underset{\theta}{\argmin}N L L(\theta) & = \underset{\theta}{\arg \min } \sum_i^n\left(y_i-\mu\right)^2 \\ \end{aligned}

对于每个 $y_i$ 来说，高斯分布的 $\mu$ 实际上就是 $a x_i + b$

\begin{aligned} \underset{\theta}{\argmin}N L L(\theta) & = \underset{\theta}{\arg \min } \sum_i^n\left(y_i-\mu\right)^2 \\ & = \underset{\theta}{\arg \min } \sum_i^n\left(y_i-\left(a x_i+b\right)\right)^2 \\ \end{aligned}

故对于已知高斯噪音(即残差的标准差已知)的简单线性模型，最大似然估计和最小二乘法在数学上是等价的。

最后更新于1年前