非引數估計法之 parzen窗方法和k近鄰方法估計概率密度
無論是引數估計還是費引數估計 其目的都是為了求出總體的概率密度函式
parzen窗
基本原理
嗯哼哼 ,畫個圈圈 ,在圈圈裡面又畫一個正方形,在往圈圈裡面隨機扔豆豆,豆豆在正方形裡面的概率約等於在正方形內的總數k比豆豆總數n即k/n,其正好是正方形與圈圈的面積比,假設正方形的面積為R
設豆豆落在正方形裡面的概率為P = k/n,假設豆豆落在正方形的每一個點上的概率一樣,則落在正方形中的任意一點的概率為
p = (k/n)/R
若沒一點的概率密度服從函式p(x)
當R足夠小,p(x)變化也會變得特別小,則
Parzon窗估計
定義窗函式:假設Rn是一個d維的超立方體。令hn為超立方體一條邊的長度,則體積:
上式為超立方體函式
落入以X為中心的立方體區域的樣本數為:
X處的密度估計為
只要函式滿足如下條件, 就可以作為窗函式
故窗函式泛化之高斯函式
其中μ = 0,δ² =1
(為什麼不是μ = x,δ² =???還是說正態窗函式就是這個樣?)
故Parzen窗估計過程是一個內插過程,一般樣本xi距離x越近,對概率密度估計的貢獻越大,越遠貢獻越小 ,和區域性線性迴歸的思想類似
栗子
來源於http://blog.sina.com.cn/s/blog_679e13290101cpr1.html
數字影象處理也用過類似思想,平滑
一般Parzen估計的效能與窗寬引數hn緊密相關
如一元正態分佈 變大則分母變大整體變小,而指數部分肯定為負數所以,h越大會越趨近於0,故副i整體變化不大
所以
當較大時,x 和中心 xi 距離大小的影響程度變弱,估計的p(x)較為平滑,解析度較差
同理,當較小時,x 和中心 xi 距離大小的影響程度變強,估計的p(x)較為尖銳,解析度較好。
同時 再來理解下 中n時什麼
n表示的樣本數
每一次樣本數發生變化時都可以取不同,n和h對其概率密度的影響
其中
近鄰估計
基本原理
固定樣本數量Kn ,調整區域體積大小Vn,直至有Kn個樣本落入區域中
固定樣本數為,在X附近選取與之最近的個樣本,計算個樣本分佈的最小體積
同樣概率密度估值為