1. 程式人生 > >第三章k近鄰法

第三章k近鄰法

k近鄰法實際上利用訓練資料集對特徵性向量空間進行劃分,並作為其分類的模型。

3.1k近鄰法演算法

(1)根據給定的距離度量,在訓練集中找出與x最鄰近的k個點,涵蓋k個點的x的領域記做Nk(x);
(2)在Nk(x)中根據分類決策規則(如多數表決)決定x的類別y。y=arg maxΣI(yi=ci), i=1,2...N ; j=1,2,...K   其中I為指示函式。

3.2k近鄰法模型

每個例項訓練點有一個單元,所有的訓練點對特徵空間進行劃分,每個單元的例項點的類別是確定的。
3.2.1k近鄰法的策略
	(1)距離的度量----兩個相似點的相似程度
	歐式距離,或者更一般的Lp距離或minkowski 距離。
	(2)k值得選擇
	一般選取的k值較小,並用交叉驗證法來選取最優的k值。
	(3)分類策略規則----多數表決
	多數表決等價於經驗風險最小化。

3.3k近鄰法的實現:kd樹

kd樹是為了提高k近鄰搜尋效率,使用特殊的結構儲存訓練資料,以減少計算距離的次數。

3.3.1構造kd樹----二叉樹 kd樹表示的是k維的二叉樹,這裡的k與之前的k近鄰法的k是不同的。 確實起到了簡化計算的作用。從幾何上簡化了距離的計算,從數學上式利用先對資料進行了排序,再進行搜尋。 3.3.2搜尋kd樹