非引數估計-parzen窗估計和k近鄰估計
阿新 • • 發佈:2019-02-14
許多資料探勘模型(貝葉斯決策模型)是基於一假設條件的:資料的概率密度函式的引數形式已知,然後去估計其引數,並且有引數估計方法,最大似然估計和貝葉斯引數估計等。這一假設是帶有相當大的侷限性的,第一:假設是否總是成立;第二:經典的密度函式的引數形式都是單峰的,怎麼處理多峰問題;第三:高維概率密度可由一些一維概率密度組成是否總是成立。此時,我們不禁要問,如何才能繞開這一假設,而直接處理任意概率分佈的資料呢。非引數方法,給我們提供了不必假設概率密度的引數形式,而直接估計概率密度。
非引數概率密度的估計
先講解一下非引數概率密度估計的理論支援。怎樣進行估計概率密度,為什麼會收斂於真實的概率密度值。
怎樣概率密度估計
核心:一個向量
如果
則可以得到
如果
其中
綜合
注意到兩個問題(侷限性),若想用這種方式估計概率密度:
1.
2.
為什麼估計收斂於真實概率密度
如果我們能夠得到無限多的樣本,是否可以克服上面的兩個問題(侷限性),收斂到真實的概率密度函式。答案是肯定的,不過需要一定的條件,現證明如下。
為估計點