分布問題(二元,多元變量分布,Beta,Dir)
這涉及到數學的概率問題。
二元變量分布:
伯努利分布,就是0-1分布(比如一次拋硬幣,正面朝上概率)
那麽一次拋硬幣的概率分布如下:
假設訓練數據如下:
那麽根據最大似然估計(MLE),我們要求u:
求值推導過程如下:
所以可以求出:
以上的推導過程就是極大似然估計,我們可以看出u就是樣本出現的頻率除以總共拋硬幣的實驗次數。但是極大似然估計有它的局限性,當訓練樣本比較小的時候會導致Overfitting問題,比如說拋了10次硬幣,有8次朝上,那麽根據極大似然估計,u的取值就應該是8/10(這符號頻率派的觀點)。如何解決這個問題呢?
那麽這時候就需要從貝葉斯理論出發,貝葉斯理論認為,u並不是一個固定的值,u是同樣服從某個分布,因此我們假設u有個先驗分布P(u)。
但是如何選取這個先驗分布p(u)呢?
我們知道
因此我們希望先驗分布也可以有類似的概率分布,為什麽這麽說呢?因為後驗概率=先驗概率*似然函數,所以如果選擇的先驗分布和似然函數有一樣的結構,那麽得到的後驗概率也會存在相似的結構,這樣會使得我們後面的計算簡便。
共軛性:θ的後驗分布p(θ|x)與先驗分布P(θ)屬於同一分布,那麽稱二者為共軛分布。
因此我們假設u的先驗分布也為
那麽這時候數學裏面有個分布叫做Beta分布:
那麽假設我們投硬幣,m次正面,l次反面。總共是m+l=N次實驗:
那麽這時候u的分布為:
依舊和先驗分布服從一樣的分布(共軛分布)
假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:
我們可以發現當m,N無限變大的時候,這種估計近似等於極大似然估計。
多元變量分布:
很多時候,變元的不止只有兩個,還有多元,其實估計過程是類似的。 假設有k維向量,其中某個向量Xk=1,其他等於0。
例如某個變量x2發生,則X2=1,x=(0,1,0,0,0,0) 以拋篩子為例子,總共有6個面。
那麽xk
考慮n個獨立觀測值{x1,x2,...xn}D,對應的似然函數:
其中mk其實就是這麽多次實驗中,uk出現的次數大小。估計極大似然估計,我們會得出:
同理,為了避免數據量小導致的過擬合問題,我們對Uk也假設一個先驗分布:
考慮到對於多元變量的分布u:
因此我們選擇它的共軛分布狄利克雷分布為先驗分布:
那麽後驗分布=似然分布*先驗分布:
依舊和先驗分布服從一樣的分布(共軛分布)
假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:
又因為對於狄利克雷分布:
所以對於某個類的分布預測為:
分布問題(二元,多元變量分布,Beta,Dir)