K近鄰估計

阿新 • • 發佈：2019-01-22

Kn-----近鄰估計

KN近鄰估計基本思想：預先確定n的某個函式K_n，然後再x點周圍選擇一個區域，調整區域體積大小，直至K_n個樣本落入區域中。這些樣本被稱為點x的K_n個最近鄰。

如果x點附近的密度比較高，則V的體積自然就相對較小，從而可以提升分辨力；

如果x點附近的密度比較低，則V的體積就較大，但一進入高密度區就會停止增長。

固定樣本數K_n，在x附近選取與之最近的K_n個樣本，計算該K_n個樣本的最小體積V。在x處的概率密度估計值為：。

通常選擇：，當n值為有限值時，K_n近鄰估計十分粗糙。

一個例子：

MATLAB實現：

kn_estimate.m

clc;
clear;

% 資料的均值向量
Mu = [0; 1]';
% 協方差矩陣
S(:, :, 1) = 1;
S(:, :, 2) = 1;
P = [1/3 2/3];
% 樣本資料規模
N = 100;
knn = fix( sqrt(N) );


% 1.生成資料
randn('seed', 0);
[X] = generate_gauss_classes(Mu, S, P, N);

%  待估計的概率密度函式
x = -5:0.1:5;
pdfx = (1/3)*(1/sqrt(2*pi*0.2))*exp(-.5*(x.^2)/0.2)+...
    (2/3)*(1/sqrt(2*pi*0.2))*exp(-.5*((x-2).^2)/0.2);

figure();
hold on;
plot(x, pdfx, '-b');

% 使用knn估計方法
pdfx_approx = knn_density_estimate(X, knn, -5, 5, 0.1);
plot(x, pdfx_approx, '-r');
hold off;
xlabel(['N=', num2str(N), ', k=', num2str(knn)]);
legend('真實概率密度函式','knn估計密度函式','Location','best');


% 取不同的N和k看估計的變化
range_N = [100, 1000, 10000];
range_k = fix( sqrt(range_N) );
figure();
k = 1;
for i=1:3
    temp_N = range_N(i);
    [temp_X] = generate_gauss_classes(Mu, S, P, temp_N);
    pdfx_approx = knn_density_estimate(temp_X, range_k(i), -5, 5, 0.1);
    subplot(1,3,k);
    plot(x, pdfx, '-b', x, pdfx_approx, '-r');
    grid on;
    title(['N=', num2str(temp_N), ', k=', num2str(range_k(i))]);
    k = k+1;
end

generate_gauss_classes.m（生成正態分佈資料）

function [ data, C ] = generate_gauss_classes( M, S, P, N )
%{
    函式功能：
        生成樣本資料，符合正態分佈

    引數說明：
        M：資料的均值向量
        S：資料的協方差矩陣
        P：各類樣本的先驗概率，即類別分佈
        N：樣本規模

    函式返回
        data：樣本資料（2*N維矩陣）
        C：樣本資料的類別資訊
%}

[~, c] = size(M);
data = [];
C = [];

for j = 1:c
    % z = mvnrnd(mu,sigma,n);
    % 產生多維正態隨機數，mu為期望向量，sigma為協方差矩陣，n為規模。
    % fix 函式向零方向取整
    t = mvnrnd(M(:,j), S(:,:,j), fix(P(j)*N))';
    
    data = [data t];
    C = [C ones(1, fix(P(j) * N)) * j];
end

end

knn_density_estimate.m（k近鄰估計）

function [ px ] = knn_density_estimate( X, knn, xleftlimit, xrightlimit, xstep )
%{
    函式功能：
        使用knn方法估計概率密度函式

    引數說明：
        X：樣本資料
        knn：k的取值大小
        xleftlimit和xrightlimit：表示左右邊界
        xstep：前進的步長

    函式返回：
        px：估計得到的概率密度函式
%}

[l, N] = size(X);
if l>1
    px=[];
    fprintf('Feature set has more than one dimensions');
    return;
end

k=1;
x=xleftlimit;
while x<xrightlimit+xstep/2
    eucl=[];
    for i=1:N
        eucl(i)=sqrt( sum((x-X(:,i)).^2) );
    end
    eucl=sort( eucl, 'ascend' );
    ro=eucl(knn);
    V=2*ro;
    px(k)=knn/(N*V);
    k=k+1;
    x=x+xstep;
end

end

實驗結果：

K近鄰估計

Kn-----近鄰估計 KN近鄰估計基本思想：預先確定n的某個函式Kn，然後再x點周圍選擇一個區域，調整區域體積大小，直至Kn個樣本落入區域中。這些樣本被稱為點x的Kn個最近鄰。

非引數估計-parzen窗估計和k近鄰估計

　　許多資料探勘模型（貝葉斯決策模型）是基於一假設條件的：資料的概率密度函式的引數形式已知，然後去估計其引數，並且有引數估計方法，最大似然估計和貝葉斯引數估計等。這一假設是帶有相當大的侷限性的，第一：假設是否總是成立；第二：經典的密度函式的引數形式都是單峰的，怎

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

ionosphere.data下載地址：http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ 原始碼及相關資料下載 https://github.com/xxg1413/MachineLea

ML實驗：k-近鄰概率密度估計方法

一實驗題目二演算法分析程式碼： 2.1 load('data3.mat') n=size(w,1); px=zeros(n,1); s=150; cen=zeros(s,1); for i=1:s cen(i)=i*0.01; end

parzen窗方法和k近鄰方法估計概率密度

機器學習實驗四，詳情請參考《模式分類》第二版第四章課後上機練習4.3、4.4節實驗環境： Matlab2016a Parzen窗估計方法：已知測試樣本資料x1,x2,…,xn，在不利用有關資料分佈的先驗知識，對資料分佈不附加任何假定的前提下，

模式識別：非引數估計法之Parzen窗估計和k最近鄰估計

本實驗的目的是學習Parzen窗估計和k最近鄰估計方法。在之前的模式識別研究中，我們假設概率密度函式的引數形式已知，即判別函式J(.)的引數是已知的。本節使用非引數化的方法來處理任意形式的概率分佈而不必

非引數估計法之 parzen窗方法和k近鄰方法估計概率密度

無論是引數估計還是費引數估計其目的都是為了求出總體的概率密度函式parzen窗基本原理嗯哼哼，畫個圈圈，在圈圈裡面又畫一個正方形，在往圈圈裡面隨機扔豆豆，豆豆在正方形裡面的概率約等於在正方形內的總數k比豆豆總數n即k/n,其正好是正方形與圈圈的面積比,假設正方形的面積為

Machine Learning in Action-chapter2-k近鄰算法

turn fma 全部 pytho label -c log eps 數組一.numpy()函數 1.shape[]讀取矩陣的長度例： import numpy as np x = np.array([[1,2],[2,3],[3,4]]) print x

K近鄰算法——多分類問題

避免曼哈頓相互個數一個實例給定通過 enter 　　給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實例最鄰近的K個實例，這K個實例的多數屬於某個類，就把該類輸入實例分為這個類。 KNN是通過測量不同特征值之間的距離進行分類。它的的思路是：如果一個

Machine Learn in Action(K-近鄰算法)

count rom sha group .get name imp diff mac 使用K-近鄰算法將某點[0.6, 0.6]劃分到某個類(A, B)中。 from numpy import * import operator def classify0(inX,

K 近鄰算法

.net 意義 pre 隨機二叉樹設有函數 -m 創建聲明： 1，本篇為個人對《2012.李航.統計學習方法.pdf》的學習總結，不得用作商用，歡迎轉載，但請註明出處（即：本帖地址）。 2，因為本人在學習初始時有非常多數學知識

K-近鄰(KNN)

機器學習 knn 1.KNN定義 KNN屬於有監督的學習，其基本思想是：在已知分類的一個訓練數據集中，輸入新的未知分類的實例，通過與訓練數據集中的數據一一對比，找到與該實例最近的k個實例，這k個實例的多數屬於某個類，則將該輸入實例分為這個類。如下圖，綠色圓作為未知分類的數據被輸入

監督學習--k近鄰算法

分類預測投票復雜方法進行 bsp k近鄰 ear 2017-07-20 15:18:25 k近鄰（k-Nearest Neighbour, 簡稱kNN）學習是一種常用的監督學習方法，其工作機制非常簡單，對某個給定的測試樣本，基於某種距離度量找出訓練集中與其最靠近的

K近鄰法

數據集量化學習過程要求過程 nbsp k近鄰實例數據　　K近鄰法是機器學習所有算法中理論最簡單，最好理解的算法。它是一種基本的分類與回歸方法，它的輸入為實例的特征向量，通過計算新數據與訓練數據特征值之間的距離，然後選取K（K>=1）個距離最近的鄰居進行分

機器學習實戰精讀--------K-近鄰算法

機器學習 knn算法 k-近鄰算法對機器學習實戰的課本和代碼進行精讀，幫助自己進步。#coding:utf-8 from numpy import * import operator #運算符模塊 from os import listdir #os.listdir() 方法用於返回指定的文件夾包含的

機器學習實戰之第二章 k-近鄰算法

lifo -h 訓練數據 adl sdi 加載 erro orm 數據集第2章 k-近鄰算法 KNN 概述 k-近鄰（kNN, k-NearestNeighbor）算法主要是用來進行分類的. KNN 場景電影可以按照題材分類，那麽如何區分動作片和愛情片呢？

k近鄰算法--手寫識別系統

eal append 測試 users nes != tran text -- 下面的例子來源為《機器學習實戰》，例子只能識別0-9。首先需要將圖像二進制數據轉化為測試向量： def imgTransformVector(filename): # 將 32x32 二進

機器學習實戰(一)k-近鄰算法

復雜 ssi bsp 體重工具等級 lap 問題種類　　轉載請註明源出處：http://www.cnblogs.com/lighten/p/7593656.html 1.原理　　本章介紹機器學習實戰的第一個算法——k近鄰算法（k Nearest Neighbor

K近鄰算法中常見的問題

k近鄰算法中常見的問題第一個問題就是k值的選取問題？怎麽快速找到k個鄰居，尤其是在特征空間維數大及訓練數據容量大時尤其必要。(1)k值的問題：當k值很小的時候，就相當於在較小的領域中訓練實例進行預測，學習的近似誤差會減小，只有與輸入實例較近的訓練實例才會對預測結果起作用（反過來想，離的越近，肯定越相似，離得越

《機器學習實戰》學習筆記——k近鄰算法

eating 元組切片文件維度 mage python str eric 1.numpy中一些函數的用法學習 shape()用法： shape : tuple of ints The elements of the shape tuple give the le

K近鄰估計

Kn-----近鄰估計

相關推薦