極大似然估計與貝葉斯估計

阿新 • • 發佈：2019-02-17

引言

在機器學習任務中，最最經常遇到的一個問題就是給定一組訓練樣本，學習到生成這組樣本的模型的引數，這也是統計學習的根本任務。我們知道統計學上分頻率學派和貝葉斯學派，那麼自然的，對這個問題的解決就有兩種模型，一種是頻率學派推崇的極大似然估計，一種是貝葉斯學派主張的貝葉斯估計，下面我們就來介紹下這兩種估計

極大似然估計

頻率學派認為給定一個模型，她的引數是一個固定值，因此可以直接根據訓練資料估計出引數的值。其思想如下：我們之所以能夠得到目前的訓練資料，那是因為通過函式生成這組資料的概率最大。因此，給定訓練集 $D = {x_{1}, . . ., x_{N}}$ ，即 $f (x_{1}, . . ., x_{N} | θ)$

f (x_{1}, . . ., x_{N} | θ)

是最大的。因此我們需要計算得到

θ

使得

f (x_{1}, . . ., x_{N} | θ)

最大，即：

$θ = a r g m a x_{θ} (f (x_{1}, . . ., x_{N} | θ))$

而我們假設樣本都是獨立生成的，因此有：

$θ = a r g m a x_{θ} (f (x_{1}, . . ., x_{N} | θ)) = a r g m a x_{θ} (\prod_{i = 1}^{N} f (x_{i} | θ))$

為了解決連乘的問題，我們求對數，就可以得到引數的極大似然函式：

$l (θ) = (\sum_{i = 1}^{N} l o g f (x_{i} | θ))$

(∑i=1Nlogf(xi|θ))

通過求導，既可以求得引數 $θ$ 的最大值。

貝葉斯估計

頻率學派認為引數是一個固定值，而貝葉斯學派認為引數也是有分佈的，這就是他們兩個的矛盾。這個矛盾不可調和啊。

針對貝葉斯學派，給定輸入x，他的輸出並不是一個確定的值，而是一個期望，即：

$E [y | x, D] = \int p (y | x, D) p (θ | D) d θ$

而：

$p (θ | D) = \frac{p (D | θ) p (θ)}{\int p (D | θ) p (θ) d θ}$

分母不影響 $θ$ ，因此：

$θ = a r g m a x_{θ} (p (D | θ) p (θ))$

rgmaxθ(p(D|θ)p(θ))

也就是說貝葉斯估計和極大似然估計之間差一個 $p (θ))$ 。

在實際問題中， $θ$ 需要以超引數的形式給出。

在訓練資料有限時，貝葉斯估計的泛化能力強。

當資料量極大時，這兩種方法結果是一致的。

極大似然估計與貝葉斯估計

引言

極大似然估計

貝葉斯估計

機器學習筆記（一）：極大似然估計與貝葉斯估計的區別

極大似然估計與貝葉斯估計

模式識別四--最大似然估計與貝葉斯估計方法

模式識別：最大似然估計與貝葉斯估計方法

全面理解似然函式與貝葉斯公式

極大似然估計與貝葉斯定理

極大似然估計與貝葉斯的理解

最大似然估計，最大後驗估計，貝葉斯估計聯絡與區別

最大似然估計MLE與貝葉斯估計

伯努利模型的極大似然估計和貝葉斯估計

最大似然估計、貝葉斯估計、最大後驗估計理論對比

最大似然估計，最大後驗估計，貝葉斯估計

通俗理解最大似然估計，最大後驗概率估計，貝葉斯估計

最大似然估計、最大後驗估計和貝葉斯估計的關係

《統計學習方法》第4章樸素貝葉斯法與貝葉斯估計

【數學基礎】引數估計之貝葉斯估計

貝葉斯估計和極大似然估計到底有何區別

極大似然估計，最大後驗概率估計(MAP)，貝葉斯估計

【轉載】引數估計(Parameter Estimation)：頻率學派（最大似然估計MLE、最大後驗估計MAP）與貝葉斯學派（貝葉斯估計BPE）

極大似然估計極大後驗估計貝葉斯估計最小二乘法

極大似然估計與貝葉斯估計

引言

極大似然估計

貝葉斯估計

相關推薦