先驗分布:(一)認識先驗概率
一、先驗概率的定義
假設有隨機變量θ,其取值僅為0或1;另有事件X,其取值僅為a或b。
我們又令當θ = 0時,X = a;當θ = 1時,X = b。也就是說,θ的取值決定了X的取值。
現在,我們做一個遊戲,遊戲要求我們在不知道θ是多少(0或1)的情況下,估計X的值。
怎麽辦?由於θ的取值決定了X的取值,只要我們知道θ的取值,問題迎刃而解。
θ可以取0,也可以取1。直觀感覺告訴我們,θ有50%的機會等於0,另外50%的機會等於1。
換句話說,在估計X的值之前(不知道X會是多少),我們假設了θ有50%的機會等於0,另外50%的機會等於1。
而這兩個50%的概率,就是先驗概率。
二、先驗概率分布
我們已經知道,先驗概率就是在知道結果之前,對原因的概率的估計。要註意的是,這裏並不是對原因的估計,而是對原因的概率的估計。
就像上面的例子,在不知道X會是多少的情況下,我們估計θ等於0的概率是50%,θ等於1的概率是50%。
在這個例子中,θ(的取值)服從(0 - 1)分布,也就是:θ要麽是0,要麽是1,只有兩個值,統計學上記為Θ ~ (0 - 1)。
當然,無論出於何種原因,有人會覺得θ有60%的機會等於0,另外40%的機會等於1。
這樣可以嗎?可以,而且完全合理,因為我們沒有任何經驗證明θ有多少機會取0,有多少機會取1。
接下來,我們改一下文章一開頭的假設:
假設有隨機變量θ,其取值為0、1或2;另有事件X,其取值為a、b、c。
我們又令當θ = 0時,X = a;當θ = 1時,X = b;當θ = 2時,X = c。X的取值還是又θ決定。
現在要做的遊戲也類似,即在不知道θ是多少(0或1或2)的情況下,估計X的值。
這次我們假設,θ有60%的機會等於0,30%的機會等於1,10%的機會等於3。換言之,這就是在這種假設下的我們主觀確定的先驗概率分布。要註意的是,我們這裏假設X等於某個值的原因只有一個,也就是θ的其中一種取值。
事實上,我們在現實世界中觀察到的任何結果都有其背後的原因,就像上面假設中的θ。通常,當我們猜測結果是什麽的時候,我們或多或少都假定了一系列原因,而其中的一個或多個原因最終導致了結果。為了方便理解,我們這裏先假定,一個事件只由一個原因引起,即原因之間是互斥的。
當原因有很多個,甚至無窮多個的時候,我們應該怎樣表示原因的概率(即先驗概率)的分布?
當原因有很多個,甚至無窮多個的時候,如果我們人工一個一個主觀指定原因的出現概率,將會耗費大量時間,如果原因有無窮多個,則工作根本不可能完成。
先驗概率說到底還是概率,我們總能找到一種分布來表示,況且,先驗概率是可以由我們主觀認定的,也就是說,先驗概率有很大的靈活性。因此,我們可以用一種比較靈活的概率分布來表示先驗概率的分布。
而用哪種分布往往取決於我們需要解決什麽問題。具體討論見下文:
先驗分布:(一)認識先驗概率