1. 程式人生 > >機器學習_非引數估計

機器學習_非引數估計

【1】非引數估計與引數估計不同:未對函式形式作出假設,直接從訓練樣本中估計出密度,從訓練樣本估計某一點的概率。

【2】最簡單的非引數估計:直方圖 理解:直方圖如果達到細化,就是概率密度函式。

  2.1

 

簡單理解一下公式:在x點發生的概率=(收集器區域內樣本數/總的樣本數)/收集器的寬度

缺點:但是是離散的而且和收集器的起始位置有關(收集器的位置一變,落入區域的樣本點個數就會發生變化)

【3】將直方圖進行推廣。如果樣本點足夠多,空間體積減小。密度估計會趨於準備值。



注意:V不是越小越好,小到一定程度可能很難包含有效的樣本。但過大的話會使寬度過寬,計算不準確。(我們不是想將直方圖抽象成一條線麼)

【4】核函式密度估計之 parzen視窗

4.1定義核函式(數點器)。(parzen視窗)理解:是中心在原點的單位超立方體。作用:值域只有0、1,是用來計數數點使用的。


4.2定義區域。


4.3計數


除以h的目的是為了歸一化吧。

4.4估計


4.5  注意:核函式密度估計的期望與資料集合規模無關