最大似然估計（like-hood）

最大似然估計的原理

給定一個概率分佈 $D$ ，假定其概率密度函式（連續分佈）或概率聚集函式（離散分佈）為 $f_D$ ，以及一個分佈引數 $\theta$ ，我們可以從這個分佈中抽出一個具有 $n$ 個值的取樣 $X_1, X_2,\ldots, X_n$ ，通過利用 $f_D$ ，我們就能計算出其概率：

$\mathbb{P}(x_1,x_2,\dots,x_n) = f_D(x_1,\dots,x_n \mid \theta)$

但是，我們可能不知道 $\theta$ 的值，儘管我們知道這些取樣資料來自於分佈 $D$ 。那麼我們如何才能估計出 $\theta$ 呢？一個自然的想法是從這個分佈中抽出一個具有 $n$ 個值的取樣 $X_1, X_2, ..., X_n$ ，然後用這些取樣資料來估計 $\theta$ .

一旦我們獲得 $X_1, X_2,\ldots, X_n$ ，我們就能從中找到一個關於 $\theta$ 的估計。最大似然估計會尋找關於 $\theta$ 的最可能的值（即，在所有可能的 $\theta$ 取值中，尋找一個值使這個取樣的“可能性”最大化）。這種方法正好同一些其他的估計方法不同，如 $\theta$ 的非偏估計，非偏估計未必會輸出一個最可能的值，而是會輸出一個既不高估也不低估的 $\theta$

值。

要在數學上實現最大似然估計法，我們首先要定義似然函式:

$\mbox{lik}(\theta) = f_D(x_1,\dots,x_n \mid \theta)$

並且在 $\theta$ 的所有取值上，使這個函式最大化。這個使可能性最大的 $\widehat{\theta}$ 值即被稱為 $\theta$ 的最大似然估計。

注意

這裡的似然函式是指 $x_1,x_2,\ldots,x_n$ 不變時，關於 $\theta$ 的一個函式。
最大似然估計函式不一定是惟一的，甚至不一定存在。

例子

離散分佈，離散有限引數空間

考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次（即，我們獲取一個取樣 $x_1=\mbox{H}, x_2=\mbox{T}, \ldots, x_{80}=\mbox{T}$ 並把正面的次數記下來，正面記為H，反面記為T）。並把丟擲一個正面的概率記為 $p$ ，丟擲一個反面的概率記為 $1-p$ （因此，這裡的 $p$ 即相當於上邊的 $\theta$ ）。假設我們丟擲了49個正面，31個反面，即49次H，31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣丟擲正面的概率分別為 $p=1/3$

, $p=1/2$ , $p=2/3$ .這些硬幣沒有標記，所以我們無法知道哪個是哪個。使用最大似然估計，通過這些試驗資料（即取樣資料），我們可以計算出哪個硬幣的可能性最大。這個似然函式取以下三個值中的一個：

$\begin{matrix}\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/3) & = & \binom{80}{49}(1/3)^{49}(1-1/3)^{31} \approx 0.000 \\&&\\\mathbb{P}(\mbox{H=49, T=31 }\mid p=1/2) & = & \binom{80}{49}(1/2)^{49}(1-1/2)^{31} \approx 0.012 \\&&\\\mathbb{P}(\mbox{H=49, T=31 }\mid p=2/3) & = & \binom{80}{49}(2/3)^{49}(1-2/3)^{31} \approx 0.054 \\\end{matrix}$

我們可以看到當 $\widehat{p}=2/3$ 時，似然函式取得最大值。這就是 $p$ 的最大似然估計。

離散分佈，連續引數空間

現在假設例子1中的盒子中有無數個硬幣，對於 $0\leq p \leq 1$ 中的任何一個 $p$ ，都有一個丟擲正面概率為 $p$ 的硬幣對應，我們來求其似然函式的最大值：

$\begin{matrix}\mbox{lik}(\theta) & = & f_D(\mbox{H=49,T=80-49}\mid p) = \binom{80}{49} p^{49}(1-p)^{31} \\\end{matrix}$

其中 $0\leq p \leq 1$ . 我們可以使用微分法來求最值。方程兩邊同時對 $p$ 取微分，並使其為零。

$\begin{matrix}0 & = & \frac{d}{dp} \left( \binom{80}{49} p^{49}(1-p)^{31} \right) \\ & & \\ & \propto & 49p^{48}(1-p)^{31} - 31p^{49}(1-p)^{30} \\ & & \\ & = & p^{48}(1-p)^{30}\left[ 49(1-p) - 31p \right] \\\end{matrix}$

在不同比例引數值下一個二項式過程的可能性曲線t = 3, n = 10；其最大似然估計值發生在其眾數並在曲線的最大值處。

其解為 $p=0$ , $p=1$ ，以及 $p=49/80$

.使可能性最大的解顯然是 $p=49/80$ （因為 $p=0$ 和 $p=1$ 這兩個解會使可能性為零）。因此我們說最大似然估計值為 $\widehat{p}=49/80$ .

這個結果很容易一般化。只需要用一個字母 $t$ 代替49用以表達伯努利試驗中的被觀察資料（即樣本）的“成功”次數，用另一個字母 $n$ 代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大似然估計值:

$\widehat{p}=\frac{t}{n}$

對於任何成功次數為 $t$ ，試驗總數為 $n$ 的伯努利試驗。

連續分佈，連續引數空間

最常見的連續概率分佈是正態分佈，其概率密度函式如下：

$f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

現在有 $n$ 個正態隨機變數的取樣點，要求的是一個這樣的正態分佈，這些取樣點分佈到這個正態分佈可能性最大（也就是概率密度積最大，每個點更靠近中心點），其 $n$ 個正態隨機變數的取樣的對應密度函式（假設其獨立並服從同一分佈）為：

$f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\mu)^2}{2\sigma^2}}$

或：

$f(x_1,\ldots,x_n \mid \mu,\sigma^2) = \left( \frac{1}{2\pi\sigma^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}\right)$ ,

這個分佈有兩個引數： $\mu,\sigma^2$ .有人可能會擔心兩個引數與上邊的討論的例子不同，上邊的例子都只是在一個引數上對可能性進行最大化。實際上，在兩個引數上的求最大值的方法也差不多：只需要分別把可能性 $\mbox{lik}(\mu,\sigma) = f(x_1,,\ldots,x_n \mid \mu, \sigma^2)$ 在兩個引數上最大化即可。當然這比一個引數麻煩一些，但是一點也不復雜。使用上邊例子同樣的符號，我們有 $\theta=(\mu,\sigma^2)$ .

最大化一個似然函式同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函式的值域內嚴格遞增的上凸函式。[注意：可能性函式（似然函式）的自然對數跟資訊熵以及Fisher資訊聯絡緊密。]求對數通常能夠一定程度上簡化運算，比如在這個例子中可以看到：

$\begin{matrix}0 & = & \frac{\partial}{\partial \mu} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = & \frac{\partial}{\partial \mu} \left( \log\left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = & 0 - \frac{-2n(\bar{x}-\mu)}{2\sigma^2} \\\end{matrix}$

這個方程的解是 $\widehat{\mu} = \bar{x} = \sum^{n}_{i=1}x_i/n$ .這的確是這個函式的最大值，因為它是 $\mu$ 裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。

同理，我們對 $\sigma$ 求導，並使其為零。

$\begin{matrix}0 & = & \frac{\partial}{\partial \sigma} \log \left( \left( \frac{1}{2\pi\sigma^2} \right)^\frac{n}{2} e^{-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2}} \right) \\ & = & \frac{\partial}{\partial \sigma} \left( \frac{n}{2}\log\left( \frac{1}{2\pi\sigma^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{2\sigma^2} \right) \\ & = & -\frac{n}{\sigma} + \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-\mu)^2}{\sigma^3}\\\end{matrix}$

這個方程的解是 $\widehat{\sigma}^2 = \sum_{i=1}^n(x_i-\widehat{\mu})^2/n$ .

因此，其關於 $\theta=(\mu,\sigma^2)$ 的最大似然估計為：

$\widehat{\theta}=(\widehat{\mu},\widehat{\sigma}^2) = (\bar{x},\sum_{i=1}^n(x_i-\bar{x})^2/n)$ .

性質

泛函不變性（Functional invariance）

如果 $\widehat{\theta}$ 是 $\theta$ 的一個最大似然估計，那麼 $\alpha = g(\theta)$ 的最大似然估計是 $\widehat{\alpha} = g(\widehat{\theta})$ .函式g無需是一個一一對映。請參見George Casella與Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的證明。（中國大陸出版的大部分教材上也可以找到這個證明。）

漸近線行為

最大似然估計函式在取樣樣本總數趨於無窮的時候達到最小方差（其證明可見於Cramer-Rao lower bound）。當最大似然估計非偏時，等價的，在極限的情況下我們可以稱其有最小的均方差。對於獨立的觀察來說，最大似然估計函式經常趨於正態分佈。

偏差

最大似然估計的偏差是非常重要的。考慮這樣一個例子，標有1到n的n張票放在一個盒子中。從盒子中隨機抽取票。如果n是未知的話，那麼n的最大似然估計值就是抽出的票上標有的n，儘管其期望值的只有 $(n+1)/2$ .為了估計出最高的n值，我們能確定的只能是n值不小於抽出來的票上的值。

注意:

最大似然估計是個概率學的問題，其作用物件是一次取樣的資料（包含了很多特徵資訊點，知道其滿足什麼分佈，如高斯分佈，但引數未知，從而轉換為一個引數估計的問題），最大似然估計的作用是，利用一次取樣的資料（不完整的資料，以拋硬幣的例子來說明最貼切），來估計完整資料的真實分佈，但該估計是最大可能的估計，而不是無偏估計。

1. 作用

在已知試驗結果（即是樣本）的情況下，用來估計滿足這些樣本分佈的引數，把可能性最大的那個引數作為真實的引數估計。

2. 離散型

設為離散型隨機變數，為多維引數向量，如果隨機變數相互獨立且概率計算式為P{，則可得概率函式為P{}=，在固定時，上式表示的概率；當已知的時候，它又變成的函式，可以把它記為，稱此函式為似然函式。似然函式值的大小意味著該樣本值出現的可能性的大小，既然已經得到了樣本值，那麼它出現的可能性應該是較大的，即似然函式的值也應該是比較大的，因而最大似然估計就是選擇使達到最大值的那個作為真實的估計。

3. 連續型

設為連續型隨機變數，其概率密度函式為，為從該總體中抽出的樣本，同樣的如果相互獨立且同分布，於是樣本的聯合概率密度為。大致過程同離散型一樣。

4. 關於概率密度(PDF)

我們來考慮個簡單的情況(m=k=1)，即是引數和樣本都為1的情況。假設進行一個實驗，實驗次數定為10次，每次實驗成功率為0.2，那麼不成功的概率為0.8，用y來表示成功的次數。由於前後的實驗是相互獨立的，所以可以計算得到成功的次數的概率密度為：

= 其中y

由於y的取值範圍已定，而且也為已知，所以圖1顯示了y取不同值時的概率分佈情況，而圖2顯示了當時的y值概率情況。

圖1 時概率分佈圖

圖2 時概率分佈圖

那麼在[0,1]之間變化而形成的概率密度函式的集合就形成了一個模型。

5. 最大似然估計的求法

由上面的介紹可以知道，對於圖1這種情況y=2是最有可能發生的事件。但是在現實中我們還會面臨另外一種情況：我們已經知道了一系列的觀察值和一個感興趣的模型，現在需要找出是哪個PDF（具體來說引數為多少時）產生出來的這些觀察值。要解決這個問題，就需要用到引數估計的方法，在最大似然估計法中，我們對調PDF中資料向量和引數向量的角色，於是可以得到似然函式的定義為：

該函式可以理解為，在給定了樣本值的情況下，關於引數向量取值情況的函式。還是以上面的簡單實驗情況為例，若此時給定y為7，那麼可以得到關於的似然函式為：

繼續回顧前面所講，圖1,2是在給定的情況下，樣本向量y取值概率的分佈情況；而圖3是圖1,2橫縱座標軸相交換而成，它所描述的似然函式圖則指出在給定樣本向量y的情況下，符合該取值樣本分佈的各種引數向量的可能性。若相比於，使得y=7出現的可能性要高，那麼理所當然的要比更加接近於真正的估計引數。所以求的極大似然估計就歸結為求似然函式的最大值點。那麼取何值時似然函式最大，這就需要用到高等數學中求導的概念，如果是多維引數向量那麼就是求偏導。