貝葉斯網路數學基礎之資訊理論
不知道大家想過怎麼一個問題沒有,我們都知道是上帝創造了一切,而誰創造了上帝呢?我們今天探討的就類似於這麼一個問題。我們一直都在那裡聊一個模型有一個引數,這個引數通過某種方式去來得到它估計它,那麼這個引數又受什麼東西來控制呢?我們不斷地去來做這麼一個東西就得到了貝葉斯網路。第一個我們可以建立一個高斯樸素貝葉斯的模型來對任何我們想做的東西進行建模,然後做估計,比如我們認為鳶尾花資料是服從高斯的樸素貝葉斯的模型的,我們就可以去來對這麼一個東西建模。
不知道大家還記不記得相對熵這麼一個概念:
p是一個隨機變數,q是一個隨機變數,這兩個隨機變數或者是概率密度我們總能去求它的相對熵的,而相對熵其實可以認為是後面這個東西求期望的一個結果,而這個結果其實可以度量兩者的距離,並且這兩個距離是不對稱的。我們其實是可以通過相對熵來去定義這個互資訊的:
還記得我們在極大似然估計裡邊談到的一個概念MLE嗎?就是說我們如果如果根據這個貝葉斯公式P(A|D)這麼個東西求概率就能推匯出這麼個東西,我們一般怎麼去來推導這個事情呢?如果說我們再來給定樣本看看能夠根據樣本得出哪些結論,推出了A1,A2,……,An若干條結論,哪個結論是最有可能的正確結論,然後呢我們就算一下這個概率,這個概率,一直算到它的概率,然後選取其中最大的一個作為最後的結論。然後再帶入得到這麼一個東西:
我們知道這個D是樣本那麼什麼是P(D)呢?就是樣本的概率,它是一個固定值因此把它扔了就是了。就只剩下分子部分,我們來做一個大膽的假定,認為P(Ai)的值是近似的相等的,也就是P(A1),P(A2)一直到P(An)它們的值近似相等,再求它們倆的乘積誰大誰小,也就意味著求這麼個東西誰大誰小:P(D|Ai)。最後就把求P(Ai|D)的最大變成了求P(D|Ai)的最大。我們用極大似然估計做的就是這麼一個東西,取什麼樣的引數的時候能夠使得它的概率最大,那個引數就是我們最後估計的結果。這不就是極大似然估計嘛,所以說極大似然估計其實假定了任何一組引數取到的概率相等或者近似相等。所以現在引出這麼一個題目: