1. 程式人生 > >非引數估計法之 parzen窗方法和k近鄰方法估計概率密度

非引數估計法之 parzen窗方法和k近鄰方法估計概率密度

無論是引數估計還是費引數估計 其目的都是為了求出總體的概率密度函式

parzen窗

基本原理

嗯哼哼 ,畫個圈圈 ,在圈圈裡面又畫一個正方形,在往圈圈裡面隨機扔豆豆,豆豆在正方形裡面的概率約等於在正方形內的總數k比豆豆總數n即k/n,其正好是正方形與圈圈的面積比,假設正方形的面積為R

設豆豆落在正方形裡面的概率為P = k/n,假設豆豆落在正方形的每一個點上的概率一樣,則落在正方形中的任意一點的概率為

p = (k/n)/R

若沒一點的概率密度服從函式p(x)


當R足夠小,p(x)變化也會變得特別小,則


Parzon窗估計

定義窗函式:假設Rn是一個d維的超立方體。令hn為超立方體一條邊的長度,則體積:




上式為超立方體函式

落入以X為中心的立方體區域的樣本數為:


X處的密度估計為


只要函式滿足如下條件,        就可以作為窗函式



故窗函式泛化之高斯函式





其中μ = 0,δ² =1

(為什麼不是μ = x,δ² =???還是說正態窗函式就是這個樣?

故Parzen窗估計過程是一個內插過程,一般樣本xi距離x越近,對概率密度估計的貢獻越大,越遠貢獻越小 ,和區域性線性迴歸的思想類似

栗子

來源於http://blog.sina.com.cn/s/blog_679e13290101cpr1.html

數字影象處理也用過類似思想,平滑

一般Parzen估計的效能與窗寬引數hn緊密相關

如一元正態分佈 變大則分母變大整體變小,而指數部分肯定為負數所以,h越大會越趨近於0,故副i整體變化不大

所以

較大時,x 和中心 xi 距離大小的影響程度變弱,估計的p(x)較為平滑,解析度較差

同理,當較小時,x 和中心 xi 距離大小的影響程度變強,估計的p(x)較為尖銳,解析度較好。

同時 再來理解下  中n時什麼

n表示的樣本數

每一次樣本數發生變化時都可以取不同,n和h對其概率密度的影響


其中




近鄰估計

基本原理

固定樣本數量Kn ,調整區域體積大小Vn,直至有Kn個樣本落入區域中

固定樣本數為,在X附近選取與之最近的個樣本,計算個樣本分佈的最小體積

同樣概率密度估值為