直方圖法、Kn近鄰估計法、Parzen窗法

當需要估計的概率密度函式的形式未知，比如我們並不能知道樣本的分佈形式時，我們就無法用最大似然估計方法或貝葉斯估計方法來進行引數估計，而應該用非引數估計方法。這裡就介紹三種非引數估計方法。
需要知道的是，作為非引數方法的共同問題是對樣本數量需求較大，只要樣本數目足夠大眾可以保證收斂於任何複雜的位置密度，但是計算量和儲存量都比較大。當樣本數很少時，如果能夠對密度函式有先驗認識，則引數估計能取得更好的估計效果。

一、直方圖法
首先來考慮最簡單的情況，樣本x是一維的，那麼我們將x的取值範圍分成k個等間隔的區間，統計每個區間內樣本的個數，由此計算每個區間的概率密度。沒錯，就是咱們小學做的那樣。
這裡寫圖片描述

現在考慮複雜一點的情況，當x是d維向量的時候，我們對每個維度的量都分成k個等間隔的區間，於是我們將整個空間分成了kd個小空間，每個小空間的體積定義為：V=∏di=1valuei，其中valuei為第i維分量的每個區間的大小。
假設總樣本數為N，每個小空間內樣本數為qi，那麼每個小空間的概率密度（注意不是概率）也可以計算出來了，為qiNV

可以注意到，小區間的大小選擇與估計的效果是密切相連的。如果區域選擇過大，會導致最終估計出來的概率密度函式非常粗糙；如果區域的選擇過小，可能會導致有些區域內根本沒有樣本或者樣本非常少，這樣會導致估計出來的概率密度函式很不連續。所以，隨著樣本數的增加，區域的體積應該儘可能小，同時又必須保證區域內有充分多的樣本，但是每個區域的樣本數有必須是總樣本數的很小的一部分。

所以說，固定區域大小的直方圖法只是最簡單的非引數估計方法，要想有更好的估計，需要採用能夠根據樣本分佈調整區域大小的方法。下面介紹的KN近鄰估計法就是一種採用可變大小區域的密度估計方法。

二、KN近鄰估計法
該方法的基本思想是：根據總樣本確定一個引數kN，即在中樣本數為N時我們要求每個區域內擁有的樣本的個數。在求x處的密度估計p^(x)時，我們調整包含x的區域的體積，直到區域內恰好落入kN個樣本，並用下式來估計p^(x)：

p^(x)=kN/NV
這樣，在樣本密度比較高的區域的體積就會比較小，而在密度低的區域的體積則會自動增大，這樣就能夠較好的兼顧在高密度區域估計的解析度和在低密度區域估計的連續性。

為了取得好的估計效果，需要選擇合適的k

N和N的關係，比如可以選擇kN=a×N−−√，其中a為引數。

三、Parzen窗法
Parzen窗法是另外一種在取值空間中進行取樣估計的方法，或者說可以看作是用核函式對樣本在取值空間中進行插值。

假設x∈Rd是一d維的向量，並假設每一個區域是一個超立方體，它在每一維上的稜長都是h，則小區域的體積為：V=hd。

定義如下d維單位方窗函式：

ϕ([u1,u2,…,ud])T={1若|uj|≤120其他
這個函式在以原點為中心的d維單位超立方體內取值為1，其他地方都取值為0.這樣，如果要考察一個樣本xi是否在這個x為中心、h為稜長的超立方體內，可以通過計算ϕ(x−xih)來判定。這樣，樣本χ中落在以x為中心的超立方體內的樣本數就可以寫成：
kN=∑i=1Nϕ(x−xih)
將其帶入p^(x)=kNV中可以得到任意一點x的密度估計：
p^(x)=1NV∑i=1Nϕ(x−xih)=1N∑i=1

直方圖法、Kn近鄰估計法、Parzen窗法

直方圖法、Kn近鄰估計法、Parzen窗法

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

【統計學習方法-李航-筆記總結】三、k近鄰法

數理統計8：點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法

STL_算法_局部排序(partial_sort、partial_sort_copy)

STL_算法_填充新值(fill、fill_n、generate、generate_n)

【Python算法】哈希存儲、哈希表、散列表原理

STL_算法_區間的比較(equal、mismatch、 lexicographical_compare)

【算法導論】第六章、堆排序

【算法導論】第七章、快速排序

解梯度下降法的三種形式BGD、SGD以及MBGD

LintCode算法題解——判斷數獨是否合法、平面列表、克隆二叉樹、序列排號

機器人學、機器視覺與控制：MATLAB算法基礎pdf

梯度下降法的三種形式-BGD、SGD、MBGD

數據結構與算法(3)——樹（二叉、二叉搜索樹）

常用排序算法（五）基數排序、桶排序以及計數排序

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

數據結構（二維）方陣問題總結：ST算法、樹狀數組、線段樹、樹套樹

調研《構建之法》指導下的全國高校的歷屆軟工實踐作品、全國互聯網+競賽、物聯網競賽、華為杯研究生作品賽、全國大學生服務外包賽等各類全國性大學生信息化相關的競賽平臺的歷屆作品

數據結構與算法（八）-二叉樹（斜二叉樹、滿二叉樹、完全二叉樹、線索二叉樹）

直方圖法、Kn近鄰估計法、Parzen窗法

相關推薦