K-NN演算法的C語言實現

阿新 • • 發佈：2019-01-01

k-NN(k-Nearest Neighbors) k-近鄰演算法

概述

k-近鄰演算法採用測量不同的特徵值之間的距離方法進行分類

k-近鄰演算法的一般流程

收集資料：可以使用任何方法
準備資料：距離計算所需要的數值，最好是結構化的資料格式
分析資料：可以使用任何方法
訓練演算法：此步驟不適用於k-近鄰演算法
測試演算法：計算錯誤率
使用演算法：首先需要輸入樣本資料和結構化的輸出結果，然後使用k-近鄰演算法判定輸入資料分別屬於哪個分類，最後應用對計算出的分類執行後續的處理

對未知類別屬性的資料集中的每個點依次執行以下操作

計算已知類別資料集中的點與當前點的距離
按照距離遞增次序排序

選取與當前點距離最小的k個點
確定前k個點所在類別的出現頻率
返回前k個點出現頻率最高的類別作為當前點的預測分類

按照上述步驟，可以實現k-近鄰演算法

k-近鄰演算法的C語言實現

#include <stdlib.h>
#include <stdio.h>
#include <math.h>

#define SIZE_ATTR 3 /* 屬性維度 */
#define SIZE_TRAIN 500 /* 訓練集大小 */
#define SIZE_TEST 500 /* 測試集大小 */
#define K 7 /* 所選k值 */

#define FILE_TRAIN "train.txt" 


/* 記錄所構成的結構體變數 */
typedef struct _DataVector {
    int id; /* 標號 */
    float attr[SIZE_ATTR]; /* 屬性 */
    int label; /* 類別 */
} DataVector;

/* 把記錄中的屬性換成距離後的結構體變數 */
typedef struct _DistanceVector {
    int id; /* 標號 */
    int label; /* 類別 */
    float distance; /* 距離 */
} DistanceVector;

/* 屬性的結構體變數
可以先對屬性值做一個分析，再做下一步針對性處理（如歸一化特徵值處理） */ 

typedef struct _AttrValue {
    float max; /* 屬性的最大值 */
    float min; /* 屬性的最小值 */
    float length; /* 屬性的長度 */
} AttrValue;

/* 定義全域性變數 */
DataVector trainSet[SIZE_TRAIN]; /* 訓練集 */
DataVector testSet[SIZE_TEST]; /* 測試集 */
DistanceVector knn[SIZE_TRAIN]; /* 距離儲存 */
AttrValue av[SIZE_ATTR]; /* 屬性的屬性 */

/* 從檔案中載入資料到記憶體 */
void loadDataFromFile(FILE *fp, char *fileName, DataVector *dv, int length) {
    int i, j;

    if ((fp = fopen(fileName, "r")) == NULL) {
        printf("open \"%s\" failured!/n", fileName);
        exit(1);
    }
    for (i = 0; i < length; ++i) {
        for (j = 0; j < SIZE_ATTR; ++j) {
            fscanf(fp, "%f ", &dv[i].attr[j]);
        }
        fscanf(fp, "%d\n", &dv[i].label);
    }
    fclose(fp);
}

/* 準備資料 */
void loadData() {
    FILE *fp = NULL;

    loadDataFromFile(fp, FILE_TRAIN, trainSet, SIZE_TRAIN);
    loadDataFromFile(fp, FILE_TRAIN, testSet, SIZE_TEST);

    printf("loading data success!\n");
}

/* 資料分析（預處理）
計算每個屬性長度，為歸一化特徵值準備 */
void preProcess() {
    int i, j;

    /* 初始化 */
    for (i = 0; i < SIZE_ATTR; ++i) {       
        av[i].max = trainSet[0].attr[i];
        av[i].min = trainSet[0].attr[i];
    }
    /* 計算屬性最大最小值 */
    for (i = 0; i < SIZE_TRAIN; ++i) {
        for (j = 0; j < SIZE_ATTR; ++j) {
            if (trainSet[i].attr[j] > av[j].max) {
                av[j].max = trainSet[i].attr[j];
            } else if (trainSet[i].attr[j] < av[j].min) {
                av[j].min = trainSet[i].attr[j];
            }
        }
    }
    /* 計算屬性長度 */
    for (i = 0; i < SIZE_ATTR; ++i) {
        av[i].length = av[i].max - av[i].min;
    }
}

/* 歸一化特徵值
公式：newValue = (oldValue - min) / (max - min) */
float autoNorm(float oldValue, AttrValue *av) {
    return (oldValue - (av->min)) / (av->length);
}

/* 距離計算
這裡計算的是歐式距離 */
float calcDistance(DataVector d1, DataVector d2) {
    float sum = 0.0;
    float newValue;
    int i;

    for (i = 0; i < SIZE_ATTR; ++i) {
        newValue = autoNorm((d1.attr[i] - d2.attr[i]), av+i);
        sum += newValue * newValue;
    }
    return (float) sqrt(sum);
}

/* 把每個資料的屬性向量轉化為距離 */
void transDistance(DataVector dv) {
    int i;

    for (i = 0; i < SIZE_TRAIN; ++i) {
        /* 對距離進行賦值 */
        knn[i].id = i;
        knn[i].label = trainSet[i].label;
        knn[i].distance = calcDistance(trainSet[i], dv);
    }
}

/* 對所有距離進行排序，選取距離最小的k個數據向量（此處使用直接選擇排序） */
void knnSort() {
    int i, j, k;
    DistanceVector temp;

    for (i = 0; i < K; ++i) {
        k = i;
        /*  從無序序列中挑出一個最小的元素 */
        for (j = i + 1; j <= SIZE_TRAIN; ++j) {
            if (knn[k].distance > knn[j].distance) {
                k = j;
            }
        }
        temp = knn[i];
        knn[i] = knn[k];
        knn[k] = temp;
    }
}

/* 預測分類 */
int forecastClassification() {
    int freq[K] = {0};
    int maxFreq = 0;
    int i, j, k = 0;

    /* 確定前k個點所在類別出現的概率
    這裡有點欠妥，因為分類最多能出現k個，出現了重複類別重複計算*/
    for (i = 0; i < K; ++i) {
        for (j = 0; j < K; ++j) {
            if (knn[j].label == knn[i].label) {
                freq[i]++;
            }
        }
    }
    /* 找到最大頻率 */
    for (i = 0; i < K; ++i) {
        if (freq[i] > maxFreq) {
            maxFreq = freq[i];
            k = i;
        }
    }
    /* 得到最大頻率的類別 */
    return knn[k].label;
}

/* 對測試資料進行測試 */
void test() {
    int i;
    int k = 0;

    loadData();
    preProcess();

    /* 對每一條測試資料進行計算 */
    for (i = 0; i < SIZE_TEST; ++i) {
        transDistance(testSet[i]);
        knnSort();
        if (testSet[i].label == forecastClassification()) {
            printf("1");
        } else {
            printf("0");
            ++k;
        }
    }
    printf("\nTest end, wrong time is %d, the correct rate is %.2f%%\n", k, (float) (SIZE_TEST - k)/SIZE_TEST*100);
}

void main() {
    test();
    system("pause");
}

參考資料

機器學習實戰. Peter Harrington

測試材料

機器學習實戰原始碼/Ch02/datingTestSet2.txt
下載連結：

簡單的K-means演算法C語言實現程式碼

K-means演算法是很典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。演算法過程如下： 1）從N個樣本隨機選取K個樣本作為質心 2）對剩餘

SHA-1演算法C語言實現

> 程式碼轉載自：https://blog.csdn.net/testcs_dn/article/details/25771377?locationNum=13&fps=1 > 感謝博主分享 #include<stdio.h> void creat_w(uns

頁面置換演算法——最近最久未使用演算法(c語言實現)

作業系統實驗：用C語言程式設計實現最近最久未使用置換演算法（LRU）最近最久未使用置換演算法（LRU），全稱Least Recently Used，是一種頁面置換演算法。對於在記憶體中但又不用的資料塊（記憶體塊）叫做LRU，作業系統會根據哪些資料屬於LRU而將其移出記憶體而騰出空間來載入另外

建立雙向連結串列的演算法——C語言實現

建立雙向連結串列的演算法——C語言實現雙向連結串列也叫雙鏈表，是連結串列的一種，它的每個節點包含兩個指標，分別指向直接後繼和直接前驅（頭節點的前驅指空，尾節點的後繼指空）。所以，從雙向連結串列中的任意一個非前驅非後繼節點開始，都能很方便地訪問它的前驅和後繼節點。實際上如果熟練掌握了單向連

差分進化演算法 C語言實現

之前的一篇中貼出了自己研究生期間C實現的基本粒子群演算法，執行速度顯然要比其他的高階語言快，這也是各個程式語言之間的差別，現在對於曾經輝煌過的差分進化演算法進行C語言實現。變異策略採用DE/rand/1，這個是最常見的。有錯誤之處請之處。 /***************D

氣泡排序演算法C語言實現

第一部分排序方法介紹常用的排序方法：氣泡排序，選擇排序，插入排序及希爾排序等。氣泡排序是常用的一種排序方法，其基本方法就是逐次比較。即一次比較兩個數，若它們的順序錯誤，則交換；重複進行，知道沒有需要交換為止。以升序排序為例： 1.

MD5加密演算法C語言實現

md5.h #ifndef MD5_H #define MD5_H typedef struct { unsigned int count[2]; unsigned int state[4]; unsigned char buffe

10個重要的演算法C語言實現原始碼：拉格朗日，牛頓插值，高斯，龍貝格，牛頓迭代，牛頓-科特斯，雅克比，秦九昭，冪法，高斯塞德爾

（一）拉格朗日插值多項式 #include <stdio.h> #include <conio.h> #include <alloc.h> &n

磁碟排程演算法C語言實現

最短尋道時間優先（SSTF）演算法。要求訪問的磁軌，與當前磁頭所在的磁軌距離最近，以使每次的尋道時間最短。掃描排程（SCAN）演算法。該演算法不僅考慮到欲訪問的磁軌與當前磁軌間的距離，更優先考慮的是磁頭當前的移動方向。例如，當磁頭正在自裡向外移動時，SCAN演算法所考慮的下一

非常值得一看—九種濾波演算法C語言實現

關注“嵌入式軟體開發學習圈”免費獲取更多學習教程今天帶著大家學習濾波演算法c語言（九種濾波演算法）實現，以及程式碼，大家可以學習瞭解下。。。。 1.限幅濾波演算法（程式判斷濾波演算法）方法解析：根據經驗判斷，確定兩次取樣允許的最

作業排程之先來先服務演算法C語言實現

程式碼如下 /* @author WellsLiu @url liuyanzhao.com*/#include"stdio.h"#include"stdlib.h"typedef st

處理機排程演算法C語言實現（註釋得當！！）

/* created by herbert on 10 Nov */ #include <iostream> #include <queue> #include <algorithm> #include <c

最短路徑之Dijkstra演算法 C語言實現

Dijkstra演算法（單源點路徑演算法，要求：圖中不存在負權值邊）：步驟： a. 初始時，S只包含源點，即S＝{v}，v的距離為0。U包含除v外的其他頂點，即: U={其餘頂點}，若v與U中頂點u有邊，則u的距離設定為相應的權值，若u v之間不存在邊，則

SHA-256演算法 C語言實現

#include <stdio.h> #include <stdlib.h> #define SHA256_ROTL(a,b) (((a>>(32-b))&(0x7fffffff>>(31-b)))|(a<<

哈夫曼壓縮演算法C語言實現——步驟，詳細註釋原始碼

哈夫曼壓縮演算法的詳細實現步驟： 1、定義哈夫曼樹節點，用結構體。 2、利用C語言檔案讀寫，統計字元個數。 3、根據字元個數建立哈夫曼樹（不懂haffman資料結構的自己查下資料，我這裡就不再重複了） 4、根據哈夫曼樹為每個出現的字元編碼 5、壓縮：這裡涉及到位操作，用ch

爐石傳說爆牌魚斬殺演算法C語言實現

#include <stdio.h> int main() { printf("請輸入敵方血量:\n"); int difangxue; scanf("%d",&difangxue); printf("請輸入自己血量:

九大排序演算法-C語言實現及詳解

概述排序有內部排序和外部排序，內部排序是資料記錄在記憶體中進行排序，而外部排序是因排序的資料很大，一次不能容納全部的排序記錄，在排序過程中需要訪問外存。我們這裡說說八大排序就是內部排序。當n較大，則應採用時間複雜度為O(nlog2n)的排序方法：快

Dijkstra演算法 c語言實現

Dijkstra(迪傑斯特拉)演算法是典型的最短路徑路由演算法，用於計算一個節點到其他所有節點的最短路徑。主要特點是以起始點為中心向外層層擴充套件，直到擴充套件到終點為止。Dijkstra演算法能得出最短路徑的最優解，但由於它遍歷計算的節點很多，所以效率低。　　Dijk

dijstra演算法 c語言實現

看來群的作用真的很大啊剛才為了一下，發現自己的抽象思維能力簡直為0 總以為沒有辦法處理集合，然後群裡面的人說可以用bool 陣列，然後研究了一下，果然可以演算法描述的時候說集合的並啊，減啊，在c語言裡，用個bool陣列就可以，剛開始初始化為false 然後進來一個t

簡單常用濾波演算法C語言實現

1.限幅濾波演算法（程式判斷濾波演算法）方法解析：根據經驗判斷，確定兩次取樣允許的最大偏差值（設定為A），每次檢測到新值時判斷：如果本次值與上次值之差<=A，則本次值有效，如果本次值與

K-NN演算法的C語言實現

k-NN(k-Nearest Neighbors) k-近鄰演算法

按照上述步驟，可以實現k-近鄰演算法

k-近鄰演算法的C語言實現

相關推薦