模式識別(Pattern Recognition)學習筆記(五)——概率密度函式(pdf)的引數估計
回顧下貝葉斯決策,它的終極目標是要獲取後驗概率,而後驗概率又可以由先驗概率和類條件概率密度兩個量估計得到。先驗概率的估計相對來說比較簡單,一般有兩種方法,其一可以用訓練資料中各類出現的頻率來估計得到;其二可以依靠經驗,不管哪種方法都不會很難,而對於類條件概率密度來說,估計往往會難得多,因此對於它的估計會是貝葉斯決策的重點。
有關概率密度函式的估計,統計類的書籍(像概率論與概率統計)中介紹的比較全面,這裡只做簡要的回顧和溫習。另外除了特別說明,我們均假定所有樣本都是來自同一類別,即利用同一類的樣本來估計本類的類條件概率密度(以下簡稱PDF)。
PDF的估計方法主要有兩大類,引數估計和非引數估計;前者,PDF形式確定,部分或全部引數不確定,因此要利用樣本來估計這些未知引數,主要方法有大家都知道的最大似然估計和貝葉斯估計
首先,回想下以前大學學概率論時老師講的引數估計,神馬點估計啊,區間估計啊,對比下我們的問題,顯然應該用點估計,對不對,上面也說了大家最熟悉的最大似然估計和貝葉斯估計了。
最大似然估計:在引數空間中找到一個能夠使得似然函式l(theta)極大化的theta值,把它當做最大似然估計量,其中,最大化的方法當然是求偏導;
貝葉斯估計:儘管很多實際情況下它與最大似然估計相同,但是他們處理問題的view是不同的;根本區別就是,前者將待估計的引數當做一個確定量,而後者卻把它當做一個隨機量。這裡提一下貝葉斯學習(Bayesian Learning)這個概念,意思就是利用貝葉斯估計對PDF直接進行迭代估計的一種學習策略。回到貝葉斯估計上來,為什麼要叫他貝葉斯估計,它跟貝葉斯決策又有什麼區別和聯絡,哈哈,聯絡當然很大,其實在貝葉斯估計中,我們是把對引數的估計當做是一個貝葉斯決策的,不同的只是這裡決策的不是離散的類別,而是引數的value,並且是在一個連續的引數空間裡做決策。
(注意:貝葉斯估計中,我們本來的目的並不是估計PDF的引數,而是估計概率密度函式p(x|theta)本身,當只有在問題的PDF形式已知時,才轉化為估計引數。另外在估計引數時,與最大似然估計不同,並非直接把似然函式最大或者是後驗概率最大的值拿來當做對樣本PDF引數的估計,而是根據把所有可能的引數值都考慮進來,用他們的似然函式作為加權來平均出一個對引數的估計值。)
非引數估計,是模式識別中比較重要的知識點,它是一種model-free的估計方法,簡單好用,並且適合高維估計,這篇部落格不準備複習它,留在下一篇吧,給自己留點動力。。