深入解析最大熵模型
不要把雞蛋放到一個籃子裡
理解了這句話其實已經理解了最大熵模型的精髓了,不過這句話還是有點含蓄,下面講一下我的理解,歡迎交流。
“不要把雞蛋放到一個籃子裡”,這樣可以降低風險。
為啥不放到一個籃子裡就可以降低風險啊?如果有人告訴你就算世界毀滅這個籃子也不會破也不會摔倒地上,那麼就永遠不會有風險(雞蛋永遠不會摔破)
遺憾的是,沒有人告訴過你(暗含我們沒有足夠的知識做出這樣的推理),既然有風險就說明籃子是有可能破掉的,但是我們又無法準確知道到底哪個籃子會破掉,那麼我們怎麼做呢?那麼好吧我們認命承認自己一無所知,不作出任何假設(比如假設某個籃子不會破),把雞蛋隨機的放入多個籃子裡面,這樣風險最小。
(有些東西寫出來就和想的不一樣,湊合看吧,這個應該可以數學上給予證明,我不會啊,哎
熵和條件熵
這個在決策樹的部落格裡面已經介紹過了,這裡再簡單說下
熵在資訊理論和概率統計中,用來表示隨機變數的不確定。是用來度量不確定的,(最大熵模型說白了就是最大不確定模型,最大不確定性模型不是最不靠譜模型,恰恰相反是最靠譜的模型,後面會介紹為什麼?)
熵的定義:
設
為一個離散隨機變數,其概率分佈為
,則
的熵為
僅依賴於
的分佈,而與
的具體取值無關。
的值越大,表示
的不確定性越大。
**條件熵:**設
為離散隨機變數。在已知X的條件下,Y的條件熵可定義為:
它表示已知
的條件下,Y的條件概率分佈的熵對X的數學期望。
似然與最大似然估計
在數理統計學中,似然函式是一種關於統計模型中引數的函式(似然函式中的未知數是模型引數,理解一下),在統計推斷中有重大作用。
似然性與概率的區別:
1)概率用於在已知一些引數的情況下,預測接下來的觀測所得到的結果。(其實就是模型已知了即模型引數都知道了,利用這個已有模型預測下觀測結果)
2)似然性則是用於在已知某些觀測所得到的結果時,對有關實物的性質的引數進行估計(觀測結果已經呈現在眼前了,你給說說是什麼樣的引數才最大可能會出現目前的結果)
最大似然估計是似然函式最初也是最自然的應用,似然函式取得最大值表示相應的引數能夠使得統計模型最為合理(醍醐灌頂,該賞)
從這樣一個想法出發,最大似然估計的做法是:首先選取似然函式(一般是概率密度函式),整理之後求最大值。
設X為離散隨機變數,其概率分佈為
1)當引數
固定時,上式表示
的概率
2)當
固定時,它是
的函式,把它記作