機器學習之利用KNN近鄰算法預測數據

阿新 • • 發佈：2018-07-07

plt 部分制圖標簽預測最近鄰特征值 learn xlsx

前半部分是簡介, 後半部分是案例

KNN近鄰算法:
簡單說就是采用測量不同特征值之間的距離方法進行分類（k-Nearest Neighbor，KNN）

優點: 精度高、對異常值不敏感、無數據輸入假定
缺點：時間復雜度高、空間復雜度高

1、當樣本不平衡時，比如一個類的樣本容量很大，其他類的樣本容量很小，輸入一個樣本的時候，K個臨近值中大多數都是大樣本容量的那個類，這時可能就會導致分類錯誤。改進方法是對K臨近點進行加權，也就是距離近的點的權值大，距離遠的點權值小。
2、計算量較大，每個待分類的樣本都要計算它到全部點的距離，根據距離排序才能求得K個臨近點，改進方法是：先對已知樣本點進行剪輯，事先去除對分類作用不大的樣本。

適用數據範圍：

標稱型(離散型)：標稱型目標變量的結果只在有限目標集中取值，如真與假(標稱型目標變量主要用於分類)
數值型：數值型目標變量則可以從無限的數值集合中取值，如0.100，42.001等 (數值型目標變量主要用於回歸分析)

工作原理:

訓練樣本集—>存在一個樣本數據集合，也稱作訓練樣本集，並且樣本集中每個數據都存在標簽，即我們知道樣本集中每一數據與所屬分類的對應關系。輸人沒有標簽的新數據後，將新數據的每個特征與樣本集中數據對應的特征進行比較，然後算法提取樣本集中特征最相似數據（最近鄰）的分類標簽。一般來說，我們只選擇樣本數據集中前K個最相似的數據，這就是K-近鄰算法中K的出處,通常K是不大於20的整數。最後，選擇K個最相似數據中出現次數最多的分類，作為新數據的分類。

電影類別KNN分析(圖片來源於網絡)

技術分享圖片

歐氏距離(Euclidean Distance,歐幾裏得度量)

技術分享圖片

計算過程圖

技術分享圖片

案例
代碼都是在 jupyter notebook 中寫的

 1 import numpy as np
 2 import pandas as pd
 3 from pandas import Series,DataFrame
 4 import matplotlib.pyplot as plt
 5 %matplotlib inline
 6 # 以上導入的包都是自己習慣性導入, 因為隨時都可能會用到, 就每次先把這些都導入了
 7 
 8 
 #這兒是我自己寫了一個excel表格,方便快速的讀取數據, 演示使用, 就不用series或者dataframe寫了
 9 film = pd.read_excel(‘films.xlsx‘,sheet_name=1)
10 #輸入film後出現表格
11 fil

技術分享圖片

 1 # 電影的樣本特征
 2 train=film[[‘動作鏡頭‘,‘接吻鏡頭‘]]   
 3 # 樣本標簽,即要預測的標簽,這兒要預測新數據是屬於什麽類別的電影
 4 target=film[‘電影類別‘]   
 5 # 創建機器學習模型,需要導入
 6 from sklearn.neighbors import KNeighborsClassifier
 7 # 創建對象, 這兒的數據因為是離散型, 所以使用KNeighborsClassifier,
 8 knn=KNeighborsClassifier()
 9 #  對knn模型進行訓練, 傳入樣本特征 和 樣本標簽
10 # 構建函數原型、構建損失函數、求損失函數最優解
11 knn.fit(train,target)
12 knn

當輸入knn後出現如下代碼, 表示訓練完成

1 KNeighborsClassifier(algorithm=‘auto‘, leaf_size=30, metric=‘minkowski‘,
2            metric_params=None, n_jobs=1, n_neighbors=5, p=2,
3            weights=‘uniform‘)

1 # 這兒隨意寫3個樣本數據,需要按照樣本數據的維度來寫
2 cat=np.array([[5,19],[21,6],[23,24]])
3 # cat=np.array([[21,4]])  也可以寫1個
4 # 使用predict函數對數據進行預測
5 knn.predict(cat)

運行會出現下圖:

技術分享圖片

預測完成 ! 成功判斷出3個新樣本的歸屬類別
接下來也可以繪制圖, 直觀的查看近鄰情況

1 # scatter畫出來的是散點圖, 取數據使用 .values,二維數組中, 一維全部取出, 二維取0,表示出來就是[:,0]
2 plt.scatter(train.values[:,0],train.values[:,1])
3 # scatter可以有一些屬性, 下邊的color可以自定義顯示的顏色
4 plt.scatter(cat[:,0],cat[:,1],color=‘red‘)

效果圖為:

技術分享圖片

在使用KNN近鄰算法時, 註意要分清楚樣本集, 樣本特征,樣本標簽

技術交流可以留言評論哦 ! 虛心學習, 不忘初心, 共同奮進 !

機器學習之利用KNN近鄰算法預測數據

plt 部分制圖標簽預測最近鄰特征值 learn xlsx 前半部分是簡介, 後半部分是案例 KNN近鄰算法: 簡單說就是采用測量不同特征值之間的距離方法進行分類（k-Nearest Neighbor，KNN）優點: 精度高、對異常值不敏感、無數據輸入假定缺

機器學習實戰精讀--------K-近鄰算法

機器學習 knn算法 k-近鄰算法對機器學習實戰的課本和代碼進行精讀，幫助自己進步。#coding:utf-8 from numpy import * import operator #運算符模塊 from os import listdir #os.listdir() 方法用於返回指定的文件夾包含的

機器學習實戰(一)k-近鄰算法

復雜 ssi bsp 體重工具等級 lap 問題種類　　轉載請註明源出處：http://www.cnblogs.com/lighten/p/7593656.html 1.原理　　本章介紹機器學習實戰的第一個算法——k近鄰算法（k Nearest Neighbor

機器學習之Logistic 回歸算法

簡單生成選擇效率 split max 坐標 opened 似然函數 1 Logistic 回歸算法的原理 1.1 需要的數學基礎我在看機器學習實戰時對其中的代碼非常費解，說好的利用偏導數求最值怎麽代碼中沒有體現啊，就一個簡單的式子：θ= θ - α Σ [( hθ(

機器學習（利用adaboost元算法提高分類性能）

ear tarray 我們 imp quit figure cte 訓練樣本這一元算法背後的思路是對其他算法進行組合的一種方式，A from numpy import * def loadSimpData(): datMat = matrix([[ 1. ,

詳解機器學習中的K近鄰算法（上）

指定測試 mage 分數 info 模型參數 center 性能在人工智能中，機器學習是一個十分重要的內容，而在機器學習中，k近鄰算法是一個十分容易理解的機器學習算法。正因為容易理解，並且k近鄰算法也是一個十分重要的內容，所以我們在這幾篇文章中給大家介紹一下k近鄰算

詳解機器學習中的K近鄰算法（下）

img 同仁支持並且圖片自己 src 是什麽 k近鄰我們在上一篇文章中給大家介紹了很多關於K近鄰算法的知識，比如K近鄰算法的三要素、算法執行的步驟、應用領域以及註意事項，但是K近鄰算法的使用註意事項可能大家可能不是很清楚的，我們在這篇文章中針對這個問題進行解答，

機器學習之K-最近鄰規則分類(KNN)演算法

準備分為兩個部分，一個是理論，一個就是程式碼實現。程式碼也可以在我的GitHub上下載，後面有連結。一、理論知識相信我的筆記還是比較詳細的二、程式碼實現KNN演算法 1. 首先要生成一些資料集，以供訓練和測試我造的資料是關於通過身高

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

Spark機器學習(11)：協同過濾算法

設置 tel println print emp master ani alt tro 協同過濾（Collaborative Filtering，CF）算法是一種常用的推薦算法，它的思想就是找出相似的用戶或產品，向用戶推薦相似的物品，或者把物品推薦給相似的用戶。怎樣評價用戶

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

機器學習實戰精讀--------FP-growth算法

fp-growth算法頻繁項集從數據集獲取有趣信息的方法：常用的兩種分別是頻繁項集和關聯規則。FP-growth：雖然可以高效的發現頻繁項集，但是不能用於發現關聯規則。FP-growth算法只需要對數據庫進行兩次掃描，速度要比Apriori算法塊。FP-growth發現頻繁項集的基本過程：① 構建FP樹

機器學習_貝葉斯算法

info image inf 機器 ima bubuko 分享 img 算法機器學習_貝葉斯算法

機器學習-支持向量機算法實現與實例程序

training mage 線性 opts 線性可分 tps gist 填充 rain 一． SMO算法基礎支持向量就是離分隔超平面最近的那些點。分隔超平面是將數據集分開來的決策邊界。支持向量機將向量映射到一個更高維的空間裏，在這個空間裏建立有一個最大間隔超

機器學習--聚類系列--DBSCAN算法

都是 img 子集 sed 聚類數據集噪聲屬於算法 DBSCAN算法　　基本概念:(Density-Based Spatial Clustering of Applications with Noise) 　　　　核心對象:若某個點的密度達到算法設定的閾值則其為核

機器學習中常見的優化算法

泰勒展開應該 inf 擬牛頓法 roman 影響牛頓法目前減少　　在機器學習中，有很多的問題並沒有解析形式的解，或者有解析形式的解但是計算量很大（譬如，超定問題的最小二乘解），對於此類問題，通常我們會選擇采用一種叠代的優化方式進行求解。 ??這些常用的優化算

[Machine :Learning] kNN近鄰算法

出現的次數假設 .sh dataset () machine main 技術 sorted from numpy import * import operator def createDataSet() : group = array([[1.0,

機器學習之優雅落地線性迴歸法

在統計學中，線性迴歸（Linear regression）是利用稱為線性迴歸方程的最小二乘函式對一個或多個自變數和因變數之間關係進行建模的一種迴歸分析維基百科。簡單線性迴歸當只有一個自變數的時候，成為簡單線性迴歸。簡單線性迴歸模型的思路為了得到一個簡單線性迴歸模型，假設存在以房屋面積為特徵

深度學習之目標檢測常用算法原理+實踐精講

soft cnn 算法設計 head 標註學習內容網絡 link 經驗第1章課程介紹本章節主要介紹課程的主要內容、核心知識點、課程涉及到的應用案例、深度學習算法設計通用流程、適應人群、學習本門課程的前置條件、學習後達到的效果等，幫助大家從整體上了解本門課程的整體脈絡

深度學習之目標檢測常用算法原理+實踐精講 YOLO / Faster RCNN / SSD / 文本檢測 / 多任務網絡

資源測試 -h 轉換條件評價框架檢測方法結果深度學習之目標檢測常用算法原理+實踐精講 YOLO / Faster RCNN / SSD / 文本檢測 / 多任務網絡資源獲取鏈接：點擊這裏第1章課程介紹本章節主要介紹課程的主要內容、核心知識點、課程

機器學習之利用KNN近鄰算法預測數據

相關推薦