KNN分類——matlab（轉載）

阿新 • • 發佈：2019-01-15

K-最近鄰分類方法（KNN，k-nearest-neighbor classifier)是一種惰性學習法，所謂惰性就是KNN不像一些演算法(比如SVM)一樣在接收待分類資料前就已經根據訓練資料構造好了分類模型，而是會在接受到訓練資料後，只是對訓練資料進行簡單的儲存，並不構造分類模型，在接受到待分類資料時，KNN通過計算待分類資料X與所有訓練資料之間的距離，選擇前K個距離X最近的資料，並將這K個距離最近的資料中出現次數最多的類屬性賦給X。如下圖所示，判斷圖中待分類資料綠色圓點的分類情況：

當K取3時，此時離待分類資料綠色圓點最近的5個數據中，包含2個紅色三角和1個藍色四邊形，出現次數多的紅色三角的類屬性將會賦給此待分類資料。
當K取5時，此時離待分類資料綠色圓點最近的5個數據中，仍包含2個紅色三角，但是藍色四邊形數目增加到3個，3>2，所以，出現次數多的藍色四邊形的類屬性將會賦給此待分類資料。

knnclassify函式
在matlab中，關於KNN分類的函式為knnclassify，Class=knnclassify(Sample,Training，Group，k，distance，rule),其中輸入引數分別為
1、Sample：待分類資料，其列數（特徵數）要與訓練資料相同。
2、Training：訓練資料，M*N,M（行）為資料個數，N（列）為特徵數。
3、Group：訓練資料所對應的類屬性。
4、k：分類中，最近鄰的個數，預設為1.
5、distance：計算資料間距離的方法，有以下幾種選擇：
（1）euclidean：歐幾里得距離（預設值）
（2）cityblock：曼哈頓（或城市塊）距離
（3）cosine:餘弦距離
（4）correlation：相關距離
（5）hamming：海明距離
這些距離方式實際上是採用不同的函式來計算兩個資料物件之間的距離，例如：
對於兩個被p個特徵描述的資料物件 i=(Xi1，Xi2，……，Xip)和j=(Xj1，Xj2，……，Xjp)，他們的歐幾里得距離為：

(1)選取k=1,diatance=’cityblock’,rule=’nearest’

function [ classfication ] = KNN2_1( train,test )
%使用matlab自帶的關於花的資料進行二分類實驗（150*4），其中，每一行代表一朵花，
%共有150行（朵)，每一朵包含4個屬性值（特徵），即4列。且每1-50，51-100，
%101-150資料分別為同一類，分別為setosa青風藤類，versicolor雲芝類，virginica錦葵類

load fisheriris                       %下載資料包含：meas（150*4花特徵資料）
                                  %和species（150*1 花的類屬性資料） 

meas=meas(1:100,1:2)                    %選取前兩類前兩個屬性進行分類 
train=[(meas(1:40,:));(meas(51:90,:))]; %選取資料中每類對應的前40個作為訓練資料
test=[(meas(41:50,:));(meas(91:100,:))];%選取資料中每類對應的後10個作為測試資料
trainGroup=[ones(1,40),2*ones(1,40)]';       %類屬性設定為1，2
testGroup=[ones(1,10),2*ones(1,10)]';

%KNN分類
class=knnclassify(test,train,trainGroup,1,'cityblock','nearest');
%用plot顯示出測試資料分類結果
testGroup=[ones(1,10),2*ones(1,10)]'; 
figure;
hold on;
plot(testGroup,'o');
plot(class,'*');
legend('測試集正確分類','KNN分類結果');
disp(class);
%計算分類測試的準確率%正確的分類情況為testGroup，實驗測試獲得的分類情況為class%計算分類精度
count=0;
fori=(1:20)
   if class(i)==testGroup(i)
      count=count+1;
   endend
fprintf('分類精度為：%f\n' ,count/20);

end

實驗結果

當改變knnclassify函式引數為：k=5,distance=’euclidean’,rule=’nearest’時，獲得的實驗結果如下圖：

主要存在的問題
KNN分類法最大的優點是思想簡單，容易理解，並且不需要訓練分類模型，同時，對於多分類問題，KNN分類較其他方法也更簡單，還是一樣的根據距離來判斷。
雖然KNN不需要訓練模型，但其在對資料分類時的計算量卻很大，因為每一個待分類的資料與訓練資料的距離都要計算，並且當訓練資料中各類別資料的個數差距較大時，在類別判定時，由於某類的資料個數太多，在總體訓練資料中分佈比較密集，對於一個待分類的資料來說，在它的K個最近鄰居中，資料個數多的類別更容易佔優勢，從而影響了分類結果。再有就是K值得選擇問題，如果K值太小，得到的最近鄰資料太少，對分類精度會有影響，如果K值太大，那麼像上面所說的‘各類別資料個數差距較大而影響分類結果’的問題就會被放大。
改進（1）對於計算量大的問題，我們可以通過減少特徵個數，只選擇部分區別性能強的特徵來作為分類資料的特徵值，再有就是由於計算距離時，需要計算待分類資料與所有訓練資料的距離，我們還可以減少訓練資料的數量，只保留部分與分類相關較大的訓練資料。（2）再有就是在計算距離時，通過對不同的特徵設定不同的權重值，對不同距離的鄰居設定不同的權重值的方法來改進KNN方法中所有特徵對距離的作用相同的缺陷以及不同距離的鄰居對類別的判定作用相同的缺陷。（3）K值得選擇，很大程度影響分類的效果，可以採用交叉檢驗來確定K值。

KNN分類——matlab（轉載）

KNN分類——matlab（轉載）

PCA （主成分分析）詳解（寫給初學者）結合matlab（轉載）

（轉載）matlab常用字符串處理函數

matlab和c++混合程式設計---matlab和vs的環境配置問題及方法和步驟（轉載）

Matlab記憶體管理/調優/優化問題（轉載）

matlab 中 gradient函式計算影象梯度原理（轉載）

目前主流微控制器分類（轉載）

樸素貝葉斯演算法實現分類問題（三類）matlab程式碼

Matlab記憶體問題（轉載）

Caffe matlab之基於Alex network的特徵提取（轉載）

MATLAB 字串處理（轉載）

Matlab影象識別/檢索系列(7)-10行程式碼完成深度學習網路之取中間層資料作為特徵（轉載）

Matlab中的圖形控制代碼（轉載）

二分類問題F-score評判指標（轉載）

二、Linear Regression 練習（轉載）

六、regularized logisitic regssion練習（轉載）

SQLServer · BUG分析 · Agent 鏈接泄露分析（轉載）

最短路徑-Dijkstra算法（轉載）

最短路徑-Floyd算法（轉載）

linux最大文件句柄數量總結（轉載）

KNN分類——matlab（轉載）

相關推薦