R中KNN演算法的實現

阿新 • • 發佈：2019-02-01

K近鄰演算法，即K-Nearest Neighbor algorithm，簡稱KNN演算法，單從名字來猜想，可以簡單粗暴的認為是：K個最近的鄰居，當K=1時，演算法便成了最近鄰演算法，即尋找最近的那個鄰居。為何要找鄰居？打個比方來說，假設你來到一個陌生的村莊，現在你要找到與你有著相似特徵的人群融入他們，所謂入夥。

用官方的話來說，所謂K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項（也就是上面所說的K個鄰居），這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。根據這個說法，咱們來看下引自維基百科上的一幅圖：

如上圖所示，有兩類不同的樣本資料，分別用藍色的小正方形和紅色的小三角形表示，而圖正中間的那個綠色的圓所標示的資料則是待分類的資料。也就是說，現在，我們不知道中間那個綠色的資料是從屬於哪一類（藍色小正方形or紅色小三角形），下面，我們就要解決這個問題：給這個綠色的圓分類。
我們常說，物以類聚，人以群分，判別一個人是一個什麼樣品質特徵的人，常常可以從他/她身邊的朋友入手，所謂觀其友，而識其人。我們不是要判別上圖中那個綠色的圓是屬於哪一類資料麼，好說，從它的鄰居下手。但一次性看多少個鄰居呢？從上圖中，你還能看到：

如果K=3，綠色圓點的最近的3個鄰居是2個紅色小三角形和1個藍色小正方形，少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於紅色的三角形一類。
如果K=5，綠色圓點的最近的5個鄰居是2個紅色三角形和3個藍色的正方形，還是少數從屬於多數，基於統計的方法，判定綠色的這個待分類點屬於藍色的正方形一類。

於此我們看到，當無法判定當前待分類點是從屬於已知分類中的哪一類時，我們可以依據統計學的理論看它所處的位置特徵，衡量它周圍鄰居的權重，而把它歸為(或分配)到權重更大的那一類。這就是K近鄰演算法的核心思想。

K值的選擇：

除了如何定義鄰居的問題之外，還有一個選擇多少個鄰居，即K值定義為多大的問題。不要小看了這個K值選擇問題，因為它對K近鄰演算法的結果會產生重大影響。如李航博士的一書「統計學習方法」上所說：

如果選擇較小的K值，就相當於用較小的領域中的訓練例項進行預測，“學習”近似誤差會減小，只有與輸入例項較近或相似的訓練例項才會對預測結果起作用，與此同時帶來的問題是“學習”的估計誤差會增大，換句話說，K值的減小就意味著整體模型變得複雜，容易發生過擬合；
如果選擇較大的K值，就相當於用較大領域中的訓練例項進行預測，其優點是可以減少學習的估計誤差，但缺點是學習的近似誤差會增大。這時候，與輸入例項較遠（不相似的）訓練例項也會對預測器作用，使預測發生錯誤，且K值的增大就意味著整體的模型變得簡單。
K=N，則完全不足取，因為此時無論輸入例項是什麼，都只是簡單的預測它屬於在訓練例項中最多的累，模型過於簡單，忽略了訓練例項中大量有用資訊。

在實際應用中，K值一般取一個比較小的數值，例如採用交叉驗證法（簡單來說，就是一部分樣本做訓練集，一部分做測試集）來選擇最優的K值。 KNN演算法描述如下：
輸入：待分類未知類別案例專案。已知類別案例集合D，其中包含j個已知類別的案例
輸出：專案可能的類別
依公式計算Item與D1、D2......Dj之相似度。得到sim(Item,D1)、Sim(Item,D2).....、Sim(Item,Dj).
將Sim(Item,D1)、Sim(Item,D2).......Sim(Item,Dj)排序，若是超過相似度門檻t則放入鄰居案例集合NN。
自鄰居案例集合NN中取出前k名，依多數決，得到Item可能類別。
該演算法在分類時有個主要的不足：

當樣本不平衡時，如一個類的樣本容量很大，而其他類樣本容量很小時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本佔多數。該演算法只計算“最近的”鄰居樣本，某一類的樣本數量很大，那麼或者這類樣本並不接近目標樣本，或者這類樣本很靠近目標樣本。無論怎樣，數量並不能影響執行結果。可以採用權值的方法（和該樣本距離小的鄰居權值大）來改進。該方法的另一個不足之處是計算量較大，因為對每一個待分類的文字都要計算它到全體已知樣本的距離，才能求得它的K個最近鄰點。目前常用的解決方法是事先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本。該演算法比較適用於樣本容量比較大的類域的自動分類，而那些樣本容量較小的類域採用這種演算法比較容易產生誤分。

library(rknn)
library(FNN)
library(gmp)
data("iris")
a<-iris[-5]
a<-scale(a)#z-score標準化
train<-a[c(1:25,51:75,101:125),]#訓練集
test<-a[c(26:50,76:100,126:150),]#測試集
train_lab<-iris[c(1:25,51:75,101:125),5]
test_lab<-iris[c(26:50,76:100,126:150),5]
pre_result<-knn(train=train,test=test,cl=train_lab,k=13,prob=TRUE)
table(pre_result,test_lab)

R中KNN演算法的實現

K值的選擇：

R中KNN演算法的實現

R語言-knn演算法的實現

R語言基於KNN演算法實現蘑菇毒性識別

Hadoop偽分佈安裝詳解+MapReduce執行原理+基於MapReduce的KNN演算法實現

KNN演算法實現影象分類

python資料建模與KNN演算法實現手寫體數字識別

機器學習---scikit-learn中KNN演算法的封裝

scikit-learn中KNN演算法資料歸一化的分裝

加權歐氏距離KNN演算法實現人臉識別(Python實現)

Spark學習筆記-KNN演算法實現

KNN演算法實現及其交叉驗證

[R][原始碼]EM演算法實現基於高斯混合模型（GMM）的聚類

MySQL中Join演算法實現原理通俗易懂

基於KNN演算法實現的單個圖片數字識別

機器學習實戰-KNN演算法實現及遇到的問題總結

lwip中Nagle 演算法實現

編寫knn演算法實現手寫體識別

opencv2.4.9中KNN演算法理解

機器學習之KNN演算法實現影象分類

KNN演算法——實現手寫數字識別（Sklearn實現）

R中KNN演算法的實現

K值的選擇：

相關推薦