概率(probability)與似然(likelihood)的區別
概率(probability)和似然(likelihood),都是指可能性,都可以被稱為概率,但在統計應用中有所區別。
- 概率(probability):用於在已知模型的情況下預測新的資料。
例如:拋一枚勻質硬幣,拋10次,6次正面向上的可能性多大?
- 似然(likelihood):給定已知資料來擬合模型,或者說給定某一結果,求某一引數值的可能性。
例如:拋一枚硬幣,拋10次,結果是6次正面向上,其是勻質的可能性多大?
下面看一個例子(來自:StatQuest: Probability vs Likelihood.)
假設下面這個分佈是老鼠體重的分佈,是一個均值為32,標準差為2.5的正態分佈。
我們隨機稱一隻老鼠的體重,其體重在32到34克的概率(probability)等於曲線在32到34的面積。在本例中,曲線的面積是0.29,意味著隨機稱一隻老鼠,會有29%的概率其體重落在32到34克之間。在數學上,我們用下面的符號表述:
P r ( 體 重 在 32 到 34 之 間 ∣ 均 值 = 32 , 標 準 差 = 2.5 ) = 0.29 Pr(體重在32到34之間|均值=32 ,\; 標準差=2.5)=0.29 Pr(體重在32到34之間∣均值=32,標準差=2.5)=0.29
這個式子中,如果我們對別的不同體重的概率感興趣的話,只需要改動 P r ( A ∣ B ) Pr(A|B)
假設,我們想知道隨意稱一隻小老鼠的體重大於34克的概率是多少,我們只需要改成
P
r
(
體
重
>
34
∣
均
值
=
32
,
標
準
差
=
2.5
)
Pr(體重>34|均值=32 ,\; 標準差=2.5)
Pr(體重>34∣均值=32,標準差=2.5)
接下來看一下似然(likelihood):
假設你已經知道了小老鼠的體重,重34克。那麼“稱得小老鼠重量為34克”的似然,是該曲線對應的y軸座標,0.12
在數學上,我們用下面的符號表述:
L
(
均
值
=
32
,
標
準
差
=
2.5
∣
重
量
=
34
克
)
=
0.12
L(均值=32,\; 標準差=2.5|重量=34克)=0.12
可以解釋為當知道資料時,資料滿足這個分佈(模型)的可能性。同樣地,我們可以變動該式的左側,如圖所示。
將分佈的均值改成34,此時似然為0.21.
總結:
概率(Probabilitiy)是分佈固定時,曲線下的面積。似然(Likelihood)是固定一個數據時,分佈函式的y軸值,且分佈函式是會改變的。
取一段來自知乎的解釋:
對於
P
(
x
∣
θ
)
P(x|\theta)
P(x∣θ) ,如果
θ
\theta
θ 設為常量,會得到一個概率函式(關於x的函式);如果將
x
x
x 設為常量你將得到似然函式(關於
θ
\theta
θ 的函式)。
參考: