Hadoop/MapReduce 及 Spark KNN分類演算法實現

阿新 • • 發佈：2019-01-11

KNN
假如有一群已知分類的點集：
//S.txt
100;c1;1.0,1.0
101;c1;1.1,1.2
102;c1;1.2,1.0
103;c1;1.6,1.5
104;c1;1.3,1.7
105;c1;2.0,2.1
106;c1;2.0,2.2
107;c1;2.3,2.3
208;c2;9.0,9.0
209;c2;9.1,9.2
210;c2;9.2,9.0
211;c2;10.6,10.5
212;c2;10.3,10.7
213;c2;9.6,9.1
214;c2;9.4,10.4
215;c2;10.3,10.3
300;c3;10.0,1.0
301;c3;10.1,1.2
302;c3;10.2,1.0
303;c3;10.6,1.5
304;c3;10.3,1.7
305;c3;1.0,2.1
306;c3;10.0,2.2
307;c3;10.3,2.3

和未知分類的點集
 
//R.txt
1000;3.0,3.0
1001;10.1,3.2
1003;2.7,2.7
1004;5.0,5.0
1005;13.1,2.2
1006;12.7,12.7

如何為R中的每一個點找到它合適的分類呢？
KNN（K鄰近）演算法：
（1）確定K（K的選擇取決於具體的資料和專案需求）
（2）計算新輸入，如【1000;3.0,3.0】與所有訓練資料之間的距離（與K一樣，距離函式的選擇也取決於資料的型別）
（3）對距離排序，並根據前K個最小距離確定K個鄰近。
（4）蒐集這些鄰近所屬的類別
（5）根據多數投票確定類別
通俗來說
有一群土豪：土豪1，土豪2，土豪3，土豪4...
有一群屌絲，屌絲1，屌絲2，屌絲3，屌絲4...
現在來了一個人，如何判斷這個人是屌絲還是土豪呢？
 
先計算這個人和所有土豪以及所有屌絲的距離（存款、房產等），然後將這些距離按從小到大的距離排列：
d1 < d2 < d3 < ...
然後統計這些距離是這個人跟誰比較得來的，例如：
d1=distance<person,土豪32>，則給這個人投一土豪票
d2=distance<person,屌絲100>，則給這個人投一屌絲票
d3=distance<person,土豪1>，則給這個人投一土豪票
...
最後看那一類的票數最多，如果土豪票票數最多，則將這個人分類為土豪。
MapReduce實現思路：
map執行之前（setup階段），將已分類檔案 
S.txt快取到記憶體中
map階段：每次從R中讀入一行，再遍歷S的每一行，兩這行對應的點求距離，並生成(distance,classfication)，如(3,土豪),即R這一行與土豪的距離為3，
map輸出:(rID,(distance,classfication))

reduce輸入:(rID,[(distance,classfication),(distance,classfication),(distance,classfication)....])
reduce：由於reduce輸入的[(distance,classfication),(distance,classfication),(distance,classfication)....]是無序的
因此需要對[(distance,classfication),(distance,classfication),(distance,classfication)....]進行排序
由於這個集合可能很大以至於記憶體中無法存放，因此需要另想辦法，使這個集合到達reduce輸入時就是有序的
關鍵技術：組合鍵 二次排序
將map輸出由自然鍵rID改為(rID,distance)，通過自定義分割槽器和分組比較器使map的輸出按rID分割槽分組，同時能按distance排序

package cjknn;

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.net.URI;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import edu.umd.cloud9.io.pair.PairOfFloatString;
import edu.umd.cloud9.io.pair.PairOfStringFloat;

public class CJKNN extends Configured implements Tool  {
    public static final int DIMENS = 2;//點的維數
    public static final int K = 6;
    public static ArrayList<Float> getVectorFromStr(String str)
    {
        String[] vectorStr = str.split(",");
        ArrayList<Float> vector = new ArrayList<Float>();
        for(int i=0;i<vectorStr.length && i < DIMENS; i++)
        {
            vector.add(Float.valueOf(vectorStr[i]));
        }
        return vector;
    }
    
    public static class CJKNNMapper extends Mapper<LongWritable, Text, PairOfStringFloat, PairOfFloatString>
    {
        PairOfStringFloat outputKey = new PairOfStringFloat();
        PairOfFloatString outputValue = new PairOfFloatString();
        List<String> S = new ArrayList<String>();
        @Override
        protected void setup(
                Mapper<LongWritable, Text, PairOfStringFloat, PairOfFloatString>.Context context)
                throws IOException, InterruptedException {
            //get S from cache
            FileReader fr = new FileReader("S");
            BufferedReader br = new BufferedReader(fr);
            String line = null;
            while((line = br.readLine()) != null)
            {
                S.add(line);
            }
            fr.close();
            br.close();
        }
        @Override
        protected void map(
                LongWritable key,
                Text value,
                Mapper<LongWritable, Text, PairOfStringFloat, PairOfFloatString>.Context context)
                throws IOException, InterruptedException {
            String rID = value.toString().split(";")[0];
            String rVectorStr = value.toString().split(";")[1];
            ArrayList<Float> rVector = getVectorFromStr(rVectorStr);
           for(String s : S)
           {
               ArrayList<Float> sVector = getVectorFromStr(s.split(";")[2]);
               float distance = calculateDistance(rVector,sVector);
               outputKey.set(rID, distance);
               outputValue.set(distance, s.split(";")[1]);
               context.write(outputKey, outputValue);
           }
        }
        
        private float calculateDistance(ArrayList<Float> rVector,
                ArrayList<Float> sVector) {
            double sum = 0.0;
            for(int i=0;i<rVector.size() && i < DIMENS;i++)
            {
                sum += Math.pow((rVector.get(i) - sVector.get(i)), 2);
            }
            return (float) Math.sqrt(sum);
        }
    }
    
    public static class CJGroupingComparator extends WritableComparator {
        public CJGroupingComparator() 
        {
            super(PairOfStringFloat.class, true);
        }

     @SuppressWarnings("rawtypes")
    @Override
     public int compare(WritableComparable wc1, WritableComparable wc2) {
         PairOfStringFloat pair = (PairOfStringFloat) wc1;
         PairOfStringFloat pair2 = (PairOfStringFloat) wc2;
         int result = pair.getLeftElement().compareTo(pair2.getLeftElement());
         return -result;
     }
 }
    
    /***
     * 定製分割槽器
     * 分割槽器會根據對映器的輸出鍵來決定哪個對映器的輸出傳送到哪個規約器。為此我們需要定義兩個外掛類
     * 首先需要一個定製分割槽器控制哪個規約器處理哪些鍵，另外還要定義一個定製比較器對規約器值排序。
     * 這個定製分割槽器可以確保具有相同鍵（自然鍵，而不是包含溫度值的組合鍵）的所有資料都發送給同一個規約器。
     * 定製比較器會完成排序，保證一旦資料到達規約器，就會按自然鍵對資料分組。
     * @author chenjie
     *
     */
    public class CJPartitioner 
       extends Partitioner<PairOfStringFloat, Text> {

        @Override
        public int getPartition(PairOfStringFloat pair, 
                                Text text, 
                                int numberOfPartitions) {
            // make sure that partitions are non-negative
            return Math.abs(pair.getLeftElement().hashCode() % numberOfPartitions);
        }
    }
    
    public static class CJKNNReducer extends Reducer<PairOfStringFloat, PairOfFloatString, Text, Text>
    {
        @Override
        protected void reduce(
                PairOfStringFloat key,
                Iterable<PairOfFloatString> values,
                Context context)
                throws IOException, InterruptedException {
            System.out.println("key= " + key);
            System.out.println("values:");
            Map<String,Integer> map = new HashMap<String,Integer>();
            int count = 0;
            Iterator<PairOfFloatString> iterator = values.iterator();
            while(iterator.hasNext())
            {
                PairOfFloatString value = iterator.next();
                System.out.println(value); 
                String sClassificationID = value.getRightElement();
                Integer times = map.get(sClassificationID);
                if (times== null )
                {
                    map.put(sClassificationID, 1);
                }
                else
                {
                    map.put(sClassificationID, times+1);
                }
                count ++;
                if(count >= K)
                    break;
            }
           int max = 0;
           String maxSClassificationID = "";
           System.out.println("map:");
           for(Map.Entry<String, Integer> entry : map.entrySet())
           {
               System.out.println(entry);
               if(entry.getValue() > max)
               {
                   max = entry.getValue();
                   maxSClassificationID = entry.getKey();
               }
           }
           context.write(new Text(key.getLeftElement()), new Text(maxSClassificationID));
        }
    }


    public static void main(String[] args) throws Exception
    {
        args = new String[2];
        args[0] = "/media/chenjie/0009418200012FF3/ubuntu/R.txt";
        args[1] = "/media/chenjie/0009418200012FF3/ubuntu/CJKNN";;
        int jobStatus = submitJob(args);
        System.exit(jobStatus);
    }
    
    public static int submitJob(String[] args) throws Exception {
        int jobStatus = ToolRunner.run(new CJKNN(), args);
        return jobStatus;
    }

    @SuppressWarnings("deprecation")
    @Override
    public int run(String[] args) throws Exception {
        Configuration conf = getConf();
        Job job = new Job(conf);
        job.setJobName("KNN");

        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        
        job.setOutputKeyClass(PairOfStringFloat.class);       
        job.setOutputValueClass(PairOfFloatString.class);      
       
        
        job.setMapperClass(CJKNNMapper.class);
        job.setReducerClass(CJKNNReducer.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.addCacheArchive(new URI("/media/chenjie/0009418200012FF3/ubuntu/S.txt" + "#S"));
        job.setPartitionerClass(CJPartitioner.class);
        job.setGroupingComparatorClass(CJGroupingComparator.class);
        
        FileSystem fs = FileSystem.get(conf);
        Path outPath = new Path(args[1]);
        if(fs.exists(outPath))
        {
            fs.delete(outPath, true);
        }
        
        boolean status = job.waitForCompletion(true);
        return status ? 0 : 1;
    }
    
    
}

Spark解決方案：

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
object KNN {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("kNN").setMaster("local")
    val sc = new SparkContext(sparkConf)
    val k = 4//
val d = 2//向量維數
val inputDatasetR = "file:///media/chenjie/0009418200012FF3/ubuntu/R.txt"
val inputDatasetS = "file:///media/chenjie/0009418200012FF3/ubuntu/S.txt"
val output = "file:///media/chenjie/0009418200012FF3/ubuntu/KNN"
val broadcastK = sc.broadcast(k)
    val broadcastD = sc.broadcast(d)

    val R = sc.textFile(inputDatasetR)
    /*
    1000;3.0,3.0
    1001;10.1,3.2
    1003;2.7,2.7
    1004;5.0,5.0
    1005;13.1,2.2
    1006;12.7,12.7
     */
val S = sc.textFile(inputDatasetS)
    /*
    100;c1;1.0,1.0
    101;c1;1.1,1.2
    102;c1;1.2,1.0
    103;c1;1.6,1.5
    104;c1;1.3,1.7
    105;c1;2.0,2.1
    106;c1;2.0,2.2
    107;c1;2.3,2.3
    208;c2;9.0,9.0
    209;c2;9.1,9.2
    210;c2;9.2,9.0
    211;c2;10.6,10.5
    212;c2;10.3,10.7
    213;c2;9.6,9.1
    214;c2;9.4,10.4
    215;c2;10.3,10.3
    300;c3;10.0,1.0
    301;c3;10.1,1.2
    302;c3;10.2,1.0
    303;c3;10.6,1.5
    304;c3;10.3,1.7
    305;c3;1.0,2.1
    306;c3;10.0,2.2
    307;c3;10.3,2.3
     */
    /**
      * 計算兩點間的距離
*
      * @param rAsString as r1,r2, ..., rd
      * @param sAsString as s1,s2, ..., sd
      * @param d 維數
*/
def calculateDistance(rAsString: String, sAsString: String, d: Int): Double = {
      val r = rAsString.split(",").map(_.toDouble)
      val s = sAsString.split(",").map(_.toDouble)
      if (r.length != d || s.length != d) Double.NaN else {
        math.sqrt((r, s).zipped.take(d).map { case (ri, si) => math.pow((ri - si), 2) }.reduce(_ + _))
      }
    }

    val cart = R cartesian S//笛卡爾積
/*
    (1000;3.0,3.0,100;c1;1.0,1.0)
    (1000;3.0,3.0,101;c1;1.1,1.2)
    (1000;3.0,3.0,102;c1;1.2,1.0)
    (1000;3.0,3.0,103;c1;1.6,1.5)
    ...
     */
val knnMapped = cart.map(cartRecord => {//(1000;3.0,3.0,100;c1;1.0,1.0)
val rRecord = cartRecord._1//1000;3.0,3.0
val sRecord = cartRecord._2//100;c1;1.0,1.0
val rTokens = rRecord.split(";")//(1000 3.0,3.0)
val rRecordID = rTokens(0)//1000
val r = rTokens(1) // 3.0,3.0
val sTokens = sRecord.split(";")//(100 c1 1.0,1.0)
val sClassificationID = sTokens(1)//c1
val s = sTokens(2) // 1.0,1.0
val distance = calculateDistance(r, s, broadcastD.value)//sqrt((3-1)^2+(3-1)^2)=2.8284
(rRecordID, (distance, sClassificationID))//(1000,(2.8284,c1))
})
    // note that groupByKey() provides an expensive solution
    // [you must have enough memory/RAM to hold all values for
    // a given key -- otherwise you might get OOM error], but
    // combineByKey() and reduceByKey() will give a better
    // scale-out performance
val knnGrouped = knnMapped.groupByKey()
    /*
    (1005,CompactBuffer((12.159358535712318,c1), (12.041594578792296,c1), (11.960351165413163,c1), (11.52128465059344,c1), (11.81058846967415,c1), (11.10045044131093,c1), (11.1,c1), (10.800462953040487,c1), (7.940403012442126,c2), (8.06225774829855,c2), (7.8390050389064045,c2), (8.668333173107735,c2), (8.94930164873215,c2), (7.736924453553879,c2), (8.996110270555825,c2), (8.570297544426332,c2), (3.3241540277189316,c3), (3.1622776601683795,c3), (3.1384709652950433,c3), (2.596150997149434,c3), (2.8442925306655775,c3), (12.100413216084812,c3), (3.0999999999999996,c3), (2.801785145224379,c3)))
    (1001,CompactBuffer((9.362157870918434,c1), (9.219544457292887,c1), (9.167878707749137,c1), (8.668333173107735,c1), (8.926925562588723,c1), (8.174350127074323,c1), (8.161494961096281,c1), (7.85175139698144,c1), (5.903388857258177,c2), (6.0827625302982185,c2), (5.869412236331676,c2), (7.3171032519706865,c2), (7.502666192761076,c2), (5.921148537234984,c2), (7.23394774656273,c2), (7.102816342831906,c2), (2.202271554554524,c3), (2.0,c3), (2.202271554554524,c3), (1.7720045146669352,c3), (1.513274595042156,c3), (9.166242414424788,c3), (1.004987562112089,c3), (0.9219544457292893,c3)))
    (1000,CompactBuffer((2.8284271247461903,c1), (2.6172504656604803,c1), (2.6907248094147422,c1), (2.0518284528683193,c1), (2.1400934559032696,c1), (1.345362404707371,c1), (1.2806248474865696,c1), (0.9899494936611668,c1), (8.48528137423857,c2), (8.697700845625812,c2), (8.627861844049196,c2), (10.67754653466797,c2), (10.61037228376083,c2), (8.987213138676527,c2), (9.783659846908007,c2), (10.323759005323595,c2), (7.280109889280518,c3), (7.3246160308919945,c3), (7.472616676907761,c3), (7.746612162745725,c3), (7.414849964766652,c3), (2.1931712199461306,c3), (7.045565981523415,c3), (7.333484846919642,c3)))
    (1004,CompactBuffer((5.656854249492381,c1), (5.445181356024793,c1), (5.517245689653488,c1), (4.879549159502341,c1), (4.957822102496216,c1), (4.172529209005013,c1), (4.1036569057366385,c1), (3.818376618407357,c1), (5.656854249492381,c2), (5.869412236331675,c2), (5.8,c2), (7.849203781276162,c2), (7.783315488916019,c2), (6.161980201201558,c2), (6.9656299069072,c2), (7.495331880577405,c2), (6.4031242374328485,c3), (6.360031446463138,c3), (6.56048778674269,c3), (6.603786792439623,c3), (6.243396511515186,c3), (4.94064773081425,c3), (5.730619512757761,c3), (5.948108943185221,c3)))
    (1006,CompactBuffer((16.54629867976521,c1), (16.33431969810803,c1), (16.405486887014355,c1), (15.76863976378432,c1), (15.84171707865028,c1), (15.06154042586614,c1), (14.991330828181999,c1), (14.707821048680186,c1), (5.23259018078045,c2), (5.020956084253276,c2), (5.093132631298737,c2), (3.0413812651491092,c2), (3.124099870362661,c2), (4.75078940808788,c2), (4.0224370722237515,c2), (3.3941125496954263,c2), (12.0074976577137,c3), (11.79025020938911,c3), (11.964113005150026,c3), (11.395174417269795,c3), (11.258774356030056,c3), (15.787653403846944,c3), (10.84158659975559,c3), (10.673331251301065,c3)))
    (1003,CompactBuffer((2.4041630560342617,c1), (2.193171219946131,c1), (2.267156809750927,c1), (1.6278820596099708,c1), (1.7204650534085255,c1), (0.9219544457292889,c1), (0.8602325267042628,c1), (0.5656854249492386,c1), (8.909545442950499,c2), (9.121951545584968,c2), (9.052071586106685,c2), (11.101801655587257,c2), (11.034491379306976,c2), (9.411163583744573,c2), (10.206860437960342,c2), (10.748023074035522,c2), (7.495331880577404,c3), (7.5504966724050675,c3), (7.690253571892151,c3), (7.99061950038919,c3), (7.66550715869472,c3), (1.8027756377319948,c3), (7.3171032519706865,c3), (7.610519036176179,c3)))
     */
val knnOutput = knnGrouped.mapValues(itr => {
      //itr.toList.sortBy(_._1).foreach(println)
      /*
      (2.596150997149434,c3)
      (2.801785145224379,c3)
      (2.8442925306655775,c3)
      (3.0999999999999996,c3)
      (3.1384709652950433,c3)
      (3.1622776601683795,c3)
      (3.3241540277189316,c3)
      (7.736924453553879,c2)
      (7.8390050389064045,c2)
      (7.940403012442126,c2)
      (8.06225774829855,c2)
      (8.570297544426332,c2)
      (8.668333173107735,c2)
      (8.94930164873215,c2)
      (8.996110270555825,c2)
      (10.800462953040487,c1)
      */
val nearestK = itr.toList.sortBy(_._1).take(broadcastK.value)
      /*
      (2.596150997149434,c3)
      (2.801785145224379,c3)
      (2.8442925306655775,c3)
      (3.0999999999999996,c3)
       */
      //nearestK.map(f => (f._2, 1)).foreach(println)
      /*
      (c3,1)
      (c3,1)
      (c3,1)
      (c3,1)
       */
      //nearestK.map(f => (f._2, 1)).groupBy(_._1)
      //(c3,List((c3,1), (c3,1), (c3,1), (c3,1)))
val majority = nearestK.map(f => (f._2, 1)).groupBy(_._1).mapValues(list => {
        val (stringList, intlist) = list.unzip
        intlist.sum
      })
      //(c3,4)
majority.maxBy(_._2)._1
      //c3
})
    //(1005,c3)
knnOutput.foreach(println)
    knnOutput.saveAsTextFile(output)
    sc.stop()
  }
}

輸出結果：

1000c1
1001c3
1003c1
1004c1
1005c3
1006c2

Hadoop/MapReduce 及 Spark KNN分類演算法實現

KNN 假如有一群已知分類的點集： //S.txt 100;c1;1.0,1.0 101;c1;1.1,1.2 102;c1;1.2,1.0 103;c1;1.6,1.5 104;c1;1.3,1.7 105;c1;2.0,2.1 106;c1;2.0,2.2 107;c

Hadoop/MapReduce 及 Spark KMeans聚類演算法實現

package kmeans; import java.io.BufferedReader; import java.io.DataInput; import java.io.DataOutput; import java.io.File; import java.io.

AI工程師成長之路-KNN分類演算法實現

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。接下來將學習如何使用Python實現KNN分類演算法。說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但為了增加熟練度，達到最佳的學習效

KNN分類演算法實現By Java

K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器學習演算法之一。該方法的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。KNN演算法中，

文字挖掘——基於TF-IDF的KNN分類演算法實現

一、專案背景此專案是用於基建大資料的文字挖掘。首先爬蟲師已經從各個公開網站上採集了大量的文字，這些文字是關於基建行業的各種招中標公告，文本里會有部分詞彙明顯或者隱晦的介紹此專案是關於哪一工程類別的，比如公路工程，市政工程，建築工程，軌道交通工程，等等。

基於KNN分類演算法手寫數字識別的實現（二）——構建KD樹

上一篇已經簡單粗暴的建立了一個KNN模型對手寫圖片進行了識別，所以本篇文章採用構造KD樹的方法實現手寫數字的識別。（一）構造KD樹構造KD樹的基本原理網上都有介紹，所以廢話不多說，直接上程式碼。 #Knn KD_Tree演算法 import math from

【分類】KNN分類演算法之Python實現

KNN稱為K最近鄰。對於待分類資料，它先計算出與其最相近的K個的樣本，然後判斷這K個樣本中最多的類標籤，並將待分類資料標記為這個最多的類標籤。 python樣例程式碼： import numpy as np from sklearn.neighbors import KN

KNN分類演算法原理及其Matlab實現

KNN演算法原理 K近鄰演算法是一種簡單的監督學習演算法。對於給定測試樣本，直接計算該樣本和訓練集的距離，將距離最近的k個“鄰居”點的類別作為參考，作為預測結果返回。測試資料程式碼 matlab版

Hadoop學習筆記三 -- 決策樹演算法實現使用者風險等級分類

前言剛剛過去的2016年被稱為人工智慧的元年，在AlphaGo大戰李世石取得里程碑式的勝利後，神經網路和深度學習的概念瞬間進入了人們的視野，各大商業巨頭也紛紛將自己的目標轉移到這個還沒有任何明確方向但所有人都知道它一旦出手將改變世界的人工智慧方向中。在這個過

KNN分類演算法java實現

最近鄰分類演算法思想 KNN演算法的思想總結一下：就是在訓練集中資料和標籤已知的情況下，輸入測試資料，將測試資料的特徵與訓練集中對應的特徵進行相互比較，找到訓練集中與之最為相似的前K個數據，則該測試資料對應的類別就是K個數據中出現次數最多的那個分類，其演算法的描述為： 1）

從零開始實現KNN分類演算法

K近鄰分類演算法 (K-Nearest Neighbor) KNN分類演算法非常簡單，該演算法的核心思想是如果一個樣本在特徵空間中的k個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。該方法在確定分類決策上只依據最鄰近K個樣本的類別來決定

kNN分類演算法的Python實現

1.k-近鄰演算法實現 from numpy import * import operator def createDataSet(): group = array([[1.0, 1.1], [2.0, 2.0], [0, 0], [4.1, 5.1]]) labels = ['A

KNN分類演算法及MATLAB程式與結果

K鄰近演算法 KNN演算法的決策過程　　k-Nearest Neighbor algorithm 　　右圖中，綠色圓要被決定賦予哪個類，是紅色三角形還是藍色四方形？如果K=3，由於紅色三角形所佔比例為2/3，綠色圓將被賦予紅色三角形那個類，如果K=5，由於藍

KNN分類演算法及改進

k近鄰演算法是一種基於例項的演算法，即學習過程只是簡單的儲存已知的訓練資料，遇到新的查詢例項時，從訓練集中取出相似的例項，因此它是一種懶惰(lazy)學習方法。可以為不同的待分類查詢例項建立不同的目標函式進行逼近。 k近鄰演算法原理：令D為訓練資料集，當

談談Hadoop MapReduce和Spark MR實現

> 談談MapReduce的概念、Hadoop MapReduce和Spark基於MR的實現 ## 什麼是MapReduce？ MapReduce是一種分散式海量資料處理的程式設計模型，用於大規模資料集的並行運算。有以下幾個特點： - 分而治之，並行處理。抽象了map和reduce的計

灰度影象形狀的識別分類演算法實現matlab

摘要：針對已經給出的影象，在分類之前，因為存在噪聲和光照的不同，所以要先進行影象增強，並統一將影象轉為二值影象。對影象進行邊緣檢測，可以很容易算出各個影象面積與周長二次方的比值關係，對影象進行直線檢測，可以獲得影象中直線的特徵，結合影象的以上兩種特種對形狀進行分

AI工程師成長之路-KNN迴歸演算法實現

本博文是博主在阿里雲大學學習記錄的筆記，未經博主允許禁止隨意轉載。需要資料集的可以聯絡博主獲取本實驗將學習如何使用Python實現KNN迴歸演算法。說明：本實驗的程式檔案與資料在啟動jupyter notebook後，就會在主目錄中顯示，可以直接開啟檢視並執行，但

sklearn學習筆記之knn分類演算法

# -*- coding: utf-8 -*- import sklearn from sklearn import neighbors import matplotlib.pyplot as plt from sklearn.model_selection import train_test_

基於樸素貝葉斯分類演算法實現垃圾郵箱分類

貝葉斯決策理論在機器學習中，樸素貝葉斯是基於貝葉斯決策的一種簡單形式,下面給出貝葉斯的基本公式，也是最重要的公式：其中X是一個m*n的矩陣，m為他的樣本數，n為特徵的個數，即我們要求的是：在已知的樣本情況下的條件概率。 )表示

K近鄰分類演算法實現 in Python

K近鄰（KNN）：分類演算法* KNN是non-parametric分類器（不做分佈形式的假設，直接從資料估計概率密度），是memory-based learning.* KNN不適用於高維資料（curse of dimension）* Machine Learning的Py

Hadoop/MapReduce 及 Spark KNN分類演算法實現

相關推薦