引數估計是指已知分類器結構或函式形式，從訓練樣本中估計引數。以貝葉斯分類為例，假定概率密度分佈符合一維高斯分佈，則引數估計的任務就是根據訓練樣本估計μ和σ。常用的引數估計方法有最大似然估計和貝葉斯引數估計法。

最大似然估計

假設引數為確定值，根據似然度最大進行最優估計。

給定樣本資料 $D_1,D_2...D_c$ 下標代表類別。假設每類樣本獨立同分布（萬年不變的假設），用 $D_i$ 來估計 $θ_i$ ，即給每個類列一個判別函式，用該類的樣本來估計該類判別函式的引數。
貝葉斯決策過程
這裡需要理解一點：做貝葉斯決策時，最關鍵的是求概率密度函式 $p (x ∣ w_{i}, D_{i})$

p(x|w_i,D_i)

p (x ∣ w_{i}, D_{i})

，從而獲得每個類的判別函式（見上圖）。即估計

p(x|w_i)

中帶有的引數，它們分佈在另一個線性空間。注意區分特徵空間和引數空間。
為了估計引數，需要如下幾個步驟：

求似然（Likelihood） $p(D|θ) =\prod_{k=1}^{n}p(x_k|θ)$
注意，上面這個式子針對的已經是具體的類別 $w_i$ 了，不要問 $w$ 引數去哪了。另外，這裡的n代表樣本數目，要和前面的類別數目c區分開。這個式子很好理解，即出現我們當前觀測到的樣本概率，求使它最大化的引數即可。

最大化似然 $\max_θp(D|θ)→▽_θp(D|θ)=0$
這個梯度是在p維引數空間求解，即 $▽_θp= \begin{bmatrix} \frac{\partial}{\partialθ_1}\\ ...\\ ...\\ \frac{\partial}{\partialθ_p} \end{bmatrix}$
求解梯度。可求解析解或梯度下降。（常用Log-Likelihood，易求解）

這裡插一句高斯分佈最大似然估計的結果(因為比較常用)，具體推導不做說明。
一維情況：
$μ$

^=1n∑k=1nxk\hat{μ}=\frac{1}{n}\sum_{k=1}^nx_k

\overset{μ}{^} = n 1 k = 1 \sum n x_{k}

\hat{σ}^2=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})^2

多維情況：

\hat{μ}=\frac{1}{n}\sum_{k=1}^nx_k

\hat{\Sigma}=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})(x_k-\hat{μ})^T

貝葉斯引數估計

引數被視為隨機變數，估計其後驗分佈

貝葉斯引數估計和最大似然一樣，要用一類的資料 $D_i$ 估計引數 $θ_i$ 的分佈。它假定已知 $p(x|θ)$ 和 $p(θ)$ ，來預測 $p(θ|D)$ 。為求 $p(x|w_i,D_i)$ ,帶入具體類別w後即轉換為求 $p(x|D)$ 。由公式：
$p(x|D)=\int{p(x,θ|D)}dθ \\ \qquad\qquad \qquad=\int{p(x|θ,D)p(θ|D)dθ}\\ \qquad\qquad=\int{p(x|θ)p(θ|D)dθ}$ 把 $p(x|D)$ 和 $p(θ|D)$ 聯絡起來，便與求解。公式第二步到第三步是因為測試樣本x和訓練樣本D的選取是獨立的（要是這樣的話，p(x|D)豈不是直接就可以寫成p(x)了？想了一下，覺得寫成p(x|D)並不重要，重要的是引出引數θ的後驗概率，從而將其與類條件概率密度 $p(x|w)$ 聯絡起來）。

以高斯密度函式為例，考慮一維情況。為了預測 $p(μ|D)$ ，寫成：
$p(μ|D)=\frac{p(D|μ)p(μ)}{\int{p(D|μ)p(μ)dμ}}\\ \qquad\quad=\alpha\prod_{k=1}^np(x_k|μ)p(μ)$
$\alpha$ 是常數項。因為 $p(x_k|μ)\sim N(μ，σ^2)$ （假設 $σ^2$ 已知）， $p(μ)\sim N(μ_0，σ_0^2)$ ，公式展開：
在這裡插入圖片描述
與μ無關的因子都被歸入 $\alpha$ 中。可見 $p(μ|D)$ 仍符合高斯分佈，對照形式 $p(μ|D)=\frac{1}{\sqrt{2\pi}σ_n}exp(-\frac{1}{2}\frac{(x-μ_n)^2}{σ_n^2})$ 可得

當n趨於無窮大， $μ_n$ 等於 $\hat{μ_n}$ 。由
$p(x|D)=\int{p(x|μ)p(μ|D)dμ}（不展開了，帶入就行）$

最大似然和貝葉斯引數估計

最大似然估計

假設引數為確定值，根據似然度最大進行最優估計。

貝葉斯引數估計

引數被視為隨機變數，估計其後驗分佈

最大似然和貝葉斯引數估計

引數估計：最大似然、貝葉斯與最大後驗

引數估計：貝葉斯思想和貝葉斯引數估計

最大似然估計和最大後驗概率估計（貝葉斯引數估計）

貝葉斯引數估計的理解

最大似然估計（MLE）、最大後驗概率估計（MAP）以及貝葉斯學派和頻率學派

貝葉斯法分類和最大似然

最大似然估計、最大後驗估計和貝葉斯估計的關係

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

人工智慧初學- 1.2 最大似然估計及貝葉斯演算法

詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

01 EM演算法 - 大綱 - 最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

模式識別四--最大似然估計與貝葉斯估計方法

模式識別：最大似然估計與貝葉斯估計方法

最大似然估計、貝葉斯估計、最大後驗估計理論對比

【轉載】引數估計(Parameter Estimation)：頻率學派（最大似然估計MLE、最大後驗估計MAP）與貝葉斯學派（貝葉斯估計BPE）

最大似然估計，最大後驗估計，貝葉斯估計聯絡與區別

最大似然估計MLE與貝葉斯估計

貝葉斯估計、最大似然估計、最大後驗概率估計

最大似然估計，最大後驗估計，貝葉斯估計

最大似然和貝葉斯引數估計

最大似然估計

假設引數為確定值，根據似然度最大進行最優估計。

貝葉斯引數估計

引數被視為隨機變數，估計其後驗分佈

相關推薦