最近鄰演算法的實現:k-d tree

阿新 • • 發佈：2019-01-08

#include <iostream>  
#include <algorithm>  
#include <stack>  
#include <math.h>  
using namespace std;  
/*function of this program: build a 2d tree using the input training data 
 the input is exm_set which contains a list of tuples (x,y) 
 the output is a 2d tree pointer*/  
  
  
struct data  
{  
    double x = 0;  
    double y = 0;  
};  
  
struct Tnode  
{  
    struct data dom_elt;  
    int split;  
    struct Tnode * left;  
    struct Tnode * right;  
};  
  
bool cmp1(data a, data b){  
    return a.x < b.x;  
}  
  
bool cmp2(data a, data b){  
    return a.y < b.y;  
}  
  
bool equal(data a, data b){  
    if (a.x == b.x && a.y == b.y)  
    {  
        return true;  
    }  
    else{  
        return false;  
    }  
}  
  
void ChooseSplit(data exm_set[], int size, int &split, data &SplitChoice){  
    /*compute the variance on every dimension. Set split as the dismension that have the biggest 
     variance. Then choose the instance which is the median on this split dimension.*/  
    /*compute variance on the x,y dimension. DX=EX^2-(EX)^2*/  
    double tmp1,tmp2;  
    tmp1 = tmp2 = 0;  
    for (int i = 0; i < size; ++i)  
    {  
        tmp1 += 1.0 / (double)size * exm_set[i].x * exm_set[i].x;  
        tmp2 += 1.0 / (double)size * exm_set[i].x;  
    }  
    double v1 = tmp1 - tmp2 * tmp2;  //compute variance on the x dimension  
      
    tmp1 = tmp2 = 0;  
    for (int i = 0; i < size; ++i)  
    {  
        tmp1 += 1.0 / (double)size * exm_set[i].y * exm_set[i].y;  
        tmp2 += 1.0 / (double)size * exm_set[i].y;  
    }  
    double v2 = tmp1 - tmp2 * tmp2;  //compute variance on the y dimension  
      
    split = v1 > v2 ? 0:1; //set the split dimension  
      
    if (split == 0)  
    {  
        sort(exm_set,exm_set + size, cmp1);  
    }  
    else{  
        sort(exm_set,exm_set + size, cmp2);  
    }  
      
    //set the split point value  
    SplitChoice.x = exm_set[size / 2].x;  
    SplitChoice.y = exm_set[size / 2].y;  
      
}  
  
Tnode* build_kdtree(data exm_set[], int size, Tnode* T){  
    //call function ChooseSplit to choose the split dimension and split point  
    if (size == 0){  
        return NULL;  
    }  
    else{  
        int split;  
        data dom_elt;  
        ChooseSplit(exm_set, size, split, dom_elt);  
        data exm_set_right [100];  
        data exm_set_left [100];  
        int sizeleft ,sizeright;  
        sizeleft = sizeright = 0;  
          
        if (split == 0)  
        {  
            for (int i = 0; i < size; ++i)  
            {  
                  
                if (!equal(exm_set[i],dom_elt) && exm_set[i].x <= dom_elt.x)  
                {  
                    exm_set_left[sizeleft].x = exm_set[i].x;  
                    exm_set_left[sizeleft].y = exm_set[i].y;  
                    sizeleft++;  
                }  
                else if (!equal(exm_set[i],dom_elt) && exm_set[i].x > dom_elt.x)  
                {  
                    exm_set_right[sizeright].x = exm_set[i].x;  
                    exm_set_right[sizeright].y = exm_set[i].y;  
                    sizeright++;  
                }  
            }  
        }  
        else{  
            for (int i = 0; i < size; ++i)  
            {  
                  
                if (!equal(exm_set[i],dom_elt) && exm_set[i].y <= dom_elt.y)  
                {  
                    exm_set_left[sizeleft].x = exm_set[i].x;  
                    exm_set_left[sizeleft].y = exm_set[i].y;  
                    sizeleft++;  
                }  
                else if (!equal(exm_set[i],dom_elt) && exm_set[i].y > dom_elt.y)  
                {  
                    exm_set_right[sizeright].x = exm_set[i].x;  
                    exm_set_right[sizeright].y = exm_set[i].y;  
                    sizeright++;  
                }  
            }  
        }  
        T = new Tnode;  
        T->dom_elt.x = dom_elt.x;  
        T->dom_elt.y = dom_elt.y;  
        T->split = split;  
        T->left = build_kdtree(exm_set_left, sizeleft, T->left);  
        T->right = build_kdtree(exm_set_right, sizeright, T->right);  
        return T;  
          
    }  
}  
  
  
double Distance(data a, data b){  
    double tmp = (a.x - b.x) * (a.x - b.x) + (a.y - b.y) * (a.y - b.y);  
    return sqrt(tmp);  
}  
  
  
void searchNearest(Tnode * Kd, data target, data &nearestpoint, double & distance){  
      
    //1. 如果Kd是空的，則設dist為無窮大返回  
      
    //2. 向下搜尋直到葉子結點  
      
    stack<Tnode*> search_path;  
    Tnode* pSearch = Kd;  
    data nearest;  
    double dist;  
      
    while(pSearch != NULL)  
    {  
        //pSearch加入到search_path中;  
        search_path.push(pSearch);  
          
        if (pSearch->split == 0)  
        {  
            if(target.x <= pSearch->dom_elt.x) /* 如果小於就進入左子樹 */  
            {  
                pSearch = pSearch->left;  
            }  
            else  
            {  
                pSearch = pSearch->right;  
            }  
        }  
        else{  
            if(target.y <= pSearch->dom_elt.y) /* 如果小於就進入左子樹 */  
            {  
                pSearch = pSearch->left;  
            }  
            else  
            {  
                pSearch = pSearch->right;  
            }  
        }  
    }  
    //取出search_path最後一個賦給nearest  
    nearest.x = search_path.top()->dom_elt.x;  
    nearest.y = search_path.top()->dom_elt.y;  
    search_path.pop();  
      
      
    dist = Distance(nearest, target);  
    //3. 回溯搜尋路徑  
      
    Tnode* pBack;  
      
    while(search_path.size() != 0)  
    {  
        //取出search_path最後一個結點賦給pBack  
        pBack = search_path.top();  
        search_path.pop();  
          
        if(pBack->left == NULL && pBack->right == NULL) /* 如果pBack為葉子結點 */  
              
        {  
              
            if( Distance(nearest, target) > Distance(pBack->dom_elt, target) )  
            {  
                nearest = pBack->dom_elt;  
                dist = Distance(pBack->dom_elt, target);  
            }  
              
        }  
          
        else  
              
        {  
              
            int s = pBack->split;  
            if (s == 0)  
            {  
                if( fabs(pBack->dom_elt.x - target.x) < dist) /* 如果以target為中心的圓（球或超球），半徑為dist的圓與分割超平面相交， 那麼就要跳到另一邊的子空間去搜索 */  
                {  
                    if( Distance(nearest, target) > Distance(pBack->dom_elt, target) )  
                    {  
                        nearest = pBack->dom_elt;  
                        dist = Distance(pBack->dom_elt, target);  
                    }  
                    if(target.x <= pBack->dom_elt.x) /* 如果target位於pBack的左子空間，那麼就要跳到右子空間去搜索 */  
                        pSearch = pBack->right;  
                    else  
                        pSearch = pBack->left; /* 如果target位於pBack的右子空間，那麼就要跳到左子空間去搜索 */  
                    if(pSearch != NULL)  
                        //pSearch加入到search_path中  
                        search_path.push(pSearch);  
                }  
            }  
            else {  
                if( fabs(pBack->dom_elt.y - target.y) < dist) /* 如果以target為中心的圓（球或超球），半徑為dist的圓與分割超平面相交， 那麼就要跳到另一邊的子空間去搜索 */  
                {  
                    if( Distance(nearest, target) > Distance(pBack->dom_elt, target) )  
                    {  
                        nearest = pBack->dom_elt;  
                        dist = Distance(pBack->dom_elt, target);  
                    }  
                    if(target.y <= pBack->dom_elt.y) /* 如果target位於pBack的左子空間，那麼就要跳到右子空間去搜索 */  
                        pSearch = pBack->right;  
                    else  
                        pSearch = pBack->left; /* 如果target位於pBack的右子空間，那麼就要跳到左子空間去搜索 */  
                    if(pSearch != NULL)  
                       // pSearch加入到search_path中  
                        search_path.push(pSearch);  
                }  
            }  
              
        }  
    }  
      
    nearestpoint.x = nearest.x;  
    nearestpoint.y = nearest.y;  
    distance = dist;  
      
}  
  
int main(){  
    data exm_set[100]; //assume the max training set size is 100  
    double x,y;  
    int id = 0;  
    cout<<"Please input the training data in the form x y. One instance per line. Enter -1 -1 to stop."<<endl;  
    while (cin>>x>>y){  
        if (x == -1)  
        {  
            break;  
        }  
        else{  
            exm_set[id].x = x;  
            exm_set[id].y = y;  
            id++;  
        }  
    }  
    struct Tnode * root = NULL;  
    root = build_kdtree(exm_set, id, root);  
      
    data nearestpoint;  
    double distance;  
    data target;  
    cout <<"Enter search point"<<endl;  
    while (cin>>target.x>>target.y)  
    {  
        searchNearest(root, target, nearestpoint, distance);  
        cout<<"The nearest distance is "<<distance<<",and the nearest point is "<<nearestpoint.x<<","<<nearestpoint.y<<endl;  
        cout <<"Enter search point"<<endl;  
  
    }  
}

最近鄰演算法的實現:k-d tree

#include <iostream> #include <algorithm> #include <stack> #include <math.h> using namespace std; /*function of this progr

K最近鄰演算法（K-NN）

K-NN是什麼？ K最近鄰演算法是一種簡單但目前最常用的分類演算法，也可用於迴歸。 KNN沒有引數（不對資料潛在分佈規律做任何假設），基於例項（不建立明確的模型，而是通過具體的訓練例項進行預測），用於監督學習中。 K-NN演算法怎麼工作？當用KNN進行分類時，

K最近鄰演算法（KNN）---sklearn+python實現

def main(): import numpy as np from sklearn import datasets digits=datasets.load_digits() x=digits.data y=digits.target from sklear

機器學習-簡單的K最近鄰演算法及python實現

根據前人的成果進行了學習 https://www.cnblogs.com/ahu-lichang/p/7161613.html#commentform 1、演算法介紹其實k最近鄰演算法算是聚類演算法中最淺顯易懂的一種了，考慮你有一堆二維資料，你想很簡單的把它分開，像下圖這

《機器學習實戰》k最近鄰演算法(K-Nearest Neighbor,Python實現)

============================================================================================ 《機器學習實

利用Python實現k最近鄰演算法並識別手寫數字（詳細註釋）

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是較為簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。K最近鄰

k最近鄰演算法(K-Nearest Neighbor)理解與python實現

numpy 模組參考教程：http://old.sebug.net/paper/books/scipydoc/index.html 一：什麼是KNN演算法？ kNN演算法全稱是k-最近鄰演算法（K-Nearest Neighbor） kNN演算法的核心思想是如果一個樣本在特

k-d tree演算法

　k-d樹（k-dimensional樹的簡稱），是一種分割k維資料空間的資料結構。主要應用於多維空間關鍵資料的搜尋（如：範圍搜尋和最近鄰搜尋）。應用背景　　SIFT演算法中做特徵點匹配的時候就會利用到k-d樹。而特徵點匹配實際上就是一個通過距離函式在高維向量之間進行相似性檢

[學習筆記]K-D Tree k-d tree演算法

推薦： k-d tree演算法對於D維的點若干，多次查詢距離某個點第K大的點是什麼。處理這一類問題的一個數據結構，叫K-D Tree 基本思想是對點進行區域分塊處理。圖示： K-D Tree是一個二叉樹。每個點維護的資訊是， split ：分裂座標軸

機器學習實戰--K近鄰演算法實現（一）

KNN演算法的工作原理為：存在一個樣本資料的集合，也稱作訓練樣本集合，並且樣本集的每個資料都存在標籤。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本集中特徵最相似的分類標籤，一般只選擇樣本集中前K個最相似的資料，前K個相似資

《機器學習實戰》第2章閱讀筆記2 K近鄰演算法實現（附詳細程式碼及註釋）

虛擬碼如下：對未知類別屬性的資料集中的每個點一次執行以下操作：（1）計算已知類別資料集中的點與當前點之間的距離；（2）按照距離遞增次序排序；（3）選取與當前點距離最小的k個點；（4）確定前k個點所在類別出現的頻率（5）返回前k個點出現頻率最高的類

圖說十大資料探勘演算法(一)K最近鄰演算法

用官方的話來說，所謂K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項（也就是上面所說的K個鄰居），這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如果你之前沒有學習過K最近鄰演算法，那今天幾張圖，讓你明白什麼是K最近鄰

KNN(k-nearest neighbor的縮寫)最近鄰演算法原理詳解

k-最近鄰演算法是基於例項的學習方法中最基本的，先介紹基於例項學習的相關概念。基於例項的學習已知一系列的訓練樣例，很多學習方法為目標函式建立起明確的一般化描述；但與此不同，基於例項的學習方法只是簡單地把訓練樣例儲存起來。從這些例項中泛化的工作被推遲到必須分類新的例

python -- K最近鄰演算法

KNN核心演算法函式 #! /usr/bin/env python3 # -*- coding: utf-8 -*- # fileName ： KNNdistance.py # author : [email protected] import

k-d tree的優化查詢演算法BBF

/*Finds an image feature's approximate k nearest neighbors in a kd tree usingBest Bin First search.@param kd_root root of an image feature kd tree@param