無參估計（上）：KNN（K nearst neighbor)

阿新 • • 發佈：2019-02-04

無參估計：根據直方圖定義概率公式： $p(x)=\frac{k}{NV}$ ,其中V:the volume surrounding X,N:the total number of examples

k：the number of the example inside V.

我們將無參估計分為兩類：

固定V，求解k (KDE)
固定k,求解V（kNN)

本講圍繞kNN展開。

依舊從 $p(x)=\frac{k}{NV}$ ，我們對V進行定義: $V=C_{D}R_{k}^{D}(x)$ ,其中R是點x與k個臨近點之間的距離。C是D維中單元範圍的大小。

定義為 $C_{D}=\frac{2\pi^{D/2}}{D*\Gamma(D/2)}$ 。我們想將knn密度估計作為貝葉斯分類器：

定義先驗概率(prior): $p(w_{i})=\frac{N_{i}}{N}$ (表示屬於w類的樣本與總樣本數的比值）
定義 $p(x|w_{i})=\frac{k_{i}}{N_{i}V}$ （在V約束下，來自w的樣本數k與來自w的總樣本數N的比值）

根據貝葉斯公式： $p(w_{i}|x)=\frac{P(x|w_{i})*P(w_{i})}{p(x)}=\frac{k_{i}}{k}$
以上為用knn做貝葉斯分類的過程

下面撇開無參估計，對KNN進行介紹。

1.演算法敘述

k近鄰是利用訓練資料對特徵特徵空間進行劃分，並作為其分類的模型。k近鄰三要素：

k值的選擇

k值大，意味著模型簡單。也就是說資料點在離聚類中心很遠的時候，依舊可以歸類。這樣一來，近似誤差會變大，不那麼相似的資料點也會被歸類。
k值小，意味著模型複雜。也就是說只有離聚類中心很近，才可以歸類。這樣一來，估計誤差會變大，如果周圍出現噪聲，預測會出錯。
k值一般會選取一個較小的值，然後利用交叉驗證集進行選取最優的k值。

距離度量

目前常用的有三種： $L_{p}(x_{i},x_{j})=\left ( \sum_{l=1}^{N}|x_{i}^{l}- x_{j}^{l}|^p \right )^\frac{1}{p}$

歐式距離p=2
曼哈頓距離p=1

p=無窮大（計算出各個維度的絕對值之後，取其中的最大值)

分類決策規則

多數表決：資料中的多數決定最後的類。

這種表決方法滿足經驗風險最小化，p(非x)=1-p(x)，如果p(非x)代表錯分類的概率，那麼使得其最小即p(x)最大，也就是多數決策。

2.實現方法

給定一個輸入x,在訓練集上找到與其最鄰近的k個點（在前面的訓練中我們已經確定了訓練集中每個點屬於哪個類，標記為N(k)。

然後分別在N(k)上，使用已經定義好的距離度量來計算每個類的N(k)上的點與x的距離之和，取距離之和最大的那一個類。

我們一般用kd樹來實現這個過程。

例子：給定一個二維空間的資料集：

$T={(2,3)^T,(5,4)^T,(9,6)^T,(4,7)^T,(8,1)^T,(7,2)^T}$

構造一個平衡kd樹。

首先我們需要進行特徵空間劃分：

step1：在二維空間中繪畫出點。

step2:按照 $x^{(1)}$ 維進行劃分。選 $x^{(1)}$ 的中位數繪製超平面。這二維空間中，則是繪製一條直線。

在本例中， $x^{(1)}$ 則是（2，5，9，4，8，7）的中位數。（x1,x2)中x1。

step3:對於深度為j的節點，選擇 $x^{(l)}$ 為切分的座標軸。l=j(mod k)+1。

在本例中，為二維空間。l屬於{1，2}。至於深度，根據樹的深度定義，

根節點（劃分的第一個節點深度為1）依次類推不斷加深。本次，j=1,k=2

則l=2，則第二次劃分以 $x^{(2)}$ 為座標軸。左平面，（3，4，7）中位數為3

在右平面，中位數為6.

step4:重複以上步驟。節點（2，3）、（4，7）深度為2，則2mod2+1=1；

則以 $x^{(1)}$ 為軸進行劃分。（8，1）同理。

根據特徵空間劃分：

第一次劃分為根節點，依次類推。

3.K近鄰搜尋：

比如：搜尋點W：

step1：確定目標X，以及包含X的葉節點。通過將X放在特徵空間，即可確定葉節點。比如在圖中，W放在特徵空間中，則可以看到葉節點為D.以D作為最近鄰，真正的最近鄰一定在以S為中心的圓中。

step2:退回到該葉節點的父節點，在該父節點的另一個子節點上搜索最近鄰。在本例中，即在退回到B節點，在E節點周圍查詢最近鄰。該節點與區域圓相交，但是其實B節點比D節點更近，則B為最近鄰。

step3:重複以上過程，直到把所有相交區域查完為止。

無參估計（上）：KNN（K nearst neighbor)

無參估計：根據直方圖定義概率公式：,其中V:the volume surrounding X,N:the total number of examples k：the number of the example inside V. 我們將無參估計分為兩類：固定V，求解

將句子表示為向量（上）：無監督句子表示學習（sentence embedding）

適用於 quic log 數據集 sea lin mat swa 共享 1. 引言 word emedding技術如word2vec，glove等已經廣泛應用於NLP，極大地推動了NLP的發展。既然詞可以embedding，句子也應該可以（其實，萬物皆可embedding，

IntelliJ IDEA（四）：Settings（上）

socket size mage 存儲策略策略 emp per http協議通知轉載：作者：JaJian 　　　出處：http://www.cnblogs.com/jajian/ 前言 IDEA是一個智能開發工具，每個開發者的使用習慣不同，如何個性化自己的IDE

Android插件化的兼容性（上）：Android O的適配

cto load 註意 android系統自己攔截 str oca 接口首先聲明，《Android插件化開發指南》這本書所介紹的Android底層是基於Android6.0（API level 23）的，而本書介紹的各種插件化解決方案，以及配套的70多個例

排序（上）：氣泡排序、插入排序和選擇排序

如何分析一個排序演算法？分析一個排序演算法的三要素：排序演算法的執行效率、排序演算法的記憶體消耗以及排序演算法的穩定性。排序演算法的執行效率對於排序演算法執行效率的分析，一般是從以下三個方面來衡量：最好情況、最壞情況、平均情況時間複雜度時間複雜度的係數、常數、低階比較次數和交

排序（上）：冒泡排序、插入排序和選擇排序

最壞情況選擇排序 main 評價先後序列 emp 復雜度基本思想如何分析一個排序算法？分析一個排序算法的三要素：排序算法的執行效率、排序算法的內存消耗以及排序算法的穩定性。排序算法的執行效率對於排序算法執行效率的分析，一般是從以下三個方面來衡量：最好情況

資料結構基礎之圖（上）：圖的基本概念

轉自:http://www.cnblogs.com/edisonchou/p/4672188.html 圖（上）：圖的基本概念前面幾篇已經介紹了線性表和樹兩類資料結構，線性表中的元素是“一對一”的關係，樹中的元素是“一對多”的關係，本章所述的圖結構中的元素則是“多對多”的

資料結構基礎之查詢（上）：樹表查詢

轉自：http://www.cnblogs.com/edisonchou/p/4700850.html 查詢（上）：基本查詢與樹表查詢只要你開啟電腦，就會涉及到查詢技術。如炒股軟體中查股票資訊、硬碟檔案中找照片、在光碟中搜DVD，甚至玩遊戲時在記憶體中查詢攻擊力、魅力值等

十、字典（上）：什麼是字典及如何訪問、新增、修改、刪除字典中的值

文章目錄（一）、什麼是字典（二）、訪問字典中的值（三）、在字典中新增鍵 - 值對（四）、修改字典中的值（五）、刪除字典中的值

德國博世百年風雨啟示錄（上）：向死而生

南樂縣阿里巴巴集團董事局主席馬雲發表致股東的公開信表示：生意難做之時，正是阿里巴巴兌現“讓天下沒有難做的生意”的使命之時。，阿里巴巴(NYSE:BABA)今日釋出了截至2018年9月30日的2019財年第二季度財報(注：阿里巴巴財年與自然年不同步，從每年的4月1日開始，至第二年的3月31日結束)。財報中

演算法 - 06 | 連結串列（上）：如何實現LRU快取淘汰演算法?

連結串列的一個景點應用場景 --- LRU快取淘汰演算法 1. 快取什麼是快取快取是一種提高資料讀取效能的技術，在硬體設計、軟體開發中都有著非常廣泛的應用，比如常見的CPU快取、資料庫快取、瀏覽器快取等等。快取淘汰策略快取大小有限，當快取被用滿是，那些資料應該被清理出去，那些資料被

演算法複雜度分析（上）：分析演算法執行時，時間資源及空間資源的消耗

前言演算法複雜度是指演算法在編寫成可執行程式後，執行時所需要的資源，資源包括時間資源和記憶體資源。複雜度也叫漸進複雜度，包括時間複雜度和空間複雜度，用來粗略分析執行效率與資料規模之間的增長趨勢關係，越高階複雜度的演算法，執行效率越低。複雜度分析是資料結構與演算法的核心精髓，指在不依賴硬體、宿主環境

大資料背後的神祕公式（上）：貝葉斯公式

大資料、人工智慧、海難搜救、生物醫學、郵件過濾，這些看起來彼此不相關的領域之間有什麼聯絡？答案是，它們都會用到同一個數學公式——貝葉斯公式。它雖然看起來很簡單、很不起眼，但卻有著深刻的內涵。那麼貝葉斯公式是如何從默默無聞到現在廣泛應用、無所不能的呢？ ◆ ◆ ◆ 什麼是貝

機器學習筆記（六）：KNN分類器

1 KNN演算法 1.1 KNN演算法簡介 KNN（K-Nearest Neighbor）工作原理：存在一個樣本資料集合，也稱為訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一資料與所屬分類對應的關係。輸入沒有標籤的資料後，將新資料中的每個特徵與樣本集中資料對應的特

Chapter 6 連結串列（上）：如何實現LRU快取淘汰演算法？

快取淘汰策略：一、什麼是連結串列？ 1.和陣列一樣，連結串列也是一種線性表。 2.從記憶體結構來看，連結串列的記憶體結構是不連續的記憶體空間，是將一組零散的記憶體塊串聯起來，從而進行資料儲存的資料結構。 3.連結串列中的每一個記憶體塊被稱為節點Node。節點除了儲存資料外，還需記錄鏈

Chapter 6 鏈表（上）：如何實現LRU緩存淘汰算法？

查詢申請簡單刪除數據地址 nod 常用 next 相同緩存淘汰策略：一、什麽是鏈表？ 1.和數組一樣，鏈表也是一種線性表。 2.從內存結構來看，鏈表的內存結構是不連續的內存空間，是將一組零散的內存塊串聯起來，從而進行數據存儲的數據結構。 3.鏈表中的每一個內

連結串列（上）：如何實現LRU快取淘汰演算法?

本文是學習演算法的筆記，《資料結構與演算法之美》，極客時間的課程連結串列（Linked list）快取技術是一種提高資料讀取效能的技術，應用廣泛。快取的大小有限，當快取被用滿的時候，哪些資料應該被保留？這需要快取淘汰策略來決定。常見的策略有三種：先進先出策略FIFO（

網路協議 8 - TCP協議（上）：性惡就要套路深

系列文章：網路協議 1 - 概述網路協議 2 - IP 是怎麼來，又是怎麼沒的？網路協議 3 - 從物理層到 MAC 層網路協議 4 - 交換機與 VLAN：辦公室太複雜，我要回學校網路協議 5 - ICMP 與 ping：投石問路的偵察兵網路協議 6 - 路由協議：敢

複雜度分析（上）：如何分析、統計演算法的執行效率和資源消耗

一、什麼是複雜度分析？ 1.資料結構和演算法本身解決的是“快”和“省”的問題，即如何讓程式碼執行得更快，如何讓程式碼更省儲存空間。 2.因此從執行時間和佔用空間兩個維度來評估資料結構和演算法的效能 3.分別用時間複雜度和空間複雜度兩個概念來描述效能問題，二者統稱為複雜度

複雜度分析（上）：如何分析、統計演算法的執行效率和資源消耗?

Tip：各平臺的 markdown 解析標準不同，會有些數學符號無法識別，比如^n^: 表示n次方，~y~: 表示y 的底數。什麼是複雜度分析? 演算法複雜度是指演算法在編寫成可執行程式後，執行時所需要的資源，資源包括時間資源和記憶體資源。為什麼需要複雜度分

無參估計（上）：KNN（K nearst neighbor)

1.演算法敘述

2.實現方法

3.K近鄰搜尋：

相關推薦