機器學習基礎之knn的簡單例子

阿新 • • 發佈：2018-12-13

knn演算法是人工智慧的基本演算法，類似於語言中的"hello world!",python中的機器學習核心模組：Scikit-Learn

Scikit-learn（sklearn）模組，為Python語言實現機器學習的核心模組，其包含了大量的演算法模型函式API，

可以讓我們很輕鬆地建立、訓練、評估演算法模型。同時該模組也是Python在人工智慧（機器學習）領域的基礎應用模組。

核心依賴模組：

NumPy：pip install –U numpy

Scipy：pip install –U scipy

Pandas：pip install –U pandas

Matplotlib：pip install –U matplotlib

Scikit-Learn模組：

Scikit-Learn：pip install –U scikit-learn

機器學習分為五個步驟：

1.演算法選型看選擇監督學習還是無監督學習

2.樣本資料劃分需要樣本資料對模型進行訓練

3.魔性訓練使用fit()方法演算法模型物件.fit( X_train_features, X_train_labels )

4.模型評估 metrics 使用sklearn中的 meterics 類可以實現對訓練後的模型進行量化指標評估

5.模型預測 predict Predict實現了對測試資料驗證以及用於對新資料的預測

KNN演算法的簡單應用，文件樹：

其中numbers.csv資料如下：

number,classes
1,A
2,A
3,A
4,B
5,B
6,B
7,C
8,C
9,C

num_knn.py原始碼：


from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import matplotlib.pyplot as plt
import os
import pandas as pd
import imp
from sklearn.model_selection import train_test_split

data=pd.read_csv(os.getcwd()+'\data'+os.sep+'numbers.csv')
print('原始資料:\n',data)

X_train,X_test,y_train,y_test=train_test_split(data['number'],data['classes'],test_size=0.25,random_state=40)
print('訓練特徵值:\n',X_train.values)
print('訓練標籤值:\n',y_train.values)
print('測試特徵值:\n',X_test.values)
print('測試標籤值:\n',y_test.values)
#print(y_train)
#print(y_test)

plt.scatter(y_train,X_train)

print('建立knn模型物件...')
knn=KNeighborsClassifier(n_neighbors=3)

print('開始訓練knn模型...')
knn.fit(X_train.values.reshape(len(X_train),1),y_train)
#print(X_train.values)
#print(X_train.values.reshape(len(X_train),1)) #變成列向量

# 評估函式
# 演算法物件.score(測試特徵值資料, 測試標籤值資料)
score=knn.score(X_test.values.reshape(len(X_test),1),y_test)
print('模型訓練綜合得分:',score)

# 步驟6：模型預測
# predict()函式實現
# predict(新資料（二維陣列型別）): 分類結果
result = knn.predict([[12],[1.5]])
print('分類預測的結果為:{0},{1}'.format(result[0],result[1]))

# 繪製測試資料點
plt.scatter(result[0], 12, color='r')
plt.scatter(result[1], 1.5, color='g')
plt.grid(linestyle='--')
plt.show()

執行結果如下圖：

KNN第二個例子：

movies.csv:

filename,war_count,love_count,movietype
movieA,3,104,愛情片
movieB,2,100,愛情片
movieC,1,81,愛情片
movieD,101,10,戰爭片
movieF,99,5,戰爭片
movieF,98,2,戰爭片

movie_knn.py:

import pandas as pd
import os
import imp
#匯入分解詞
from sklearn.model_selection import train_test_split
#匯入knn演算法模型
from sklearn.neighbors import KNeighborsClassifier
# 匯入分類器效能監測報告模組
from sklearn.metrics import classification_report


def loaddata(filepath):  #載入資料
    data=pd.read_csv(filepath)
    print('樣本資料集:\n',data)
    #print('樣本資料集:\n{0}'.format(data))

    # 步驟2：資料抽取
    # 獲取war_count、love_count、movietype列資料
    data = data[['war_count', 'love_count', 'movietype']]
    print('原始樣本資料集(資料抽取)：\n{0}'.format(data))

    # 返回資料
    return data


def splitdata(data):
    print('--資料劃分--')
    X_train,X_test,y_train,y_test=train_test_split(data[['war_count','love_count']],data['movietype'],\
                                                   test_size=0.25,random_state=30)
    print('訓練樣本特徵集:\n', X_train.values)
    print('訓練樣本標籤集:\n', X_test.values)
    print('測試樣本特徵集:\n', y_train.values)
    print('測試樣本標籤集:\n', y_test.values)

    # 返回資料
    return X_train, X_test, y_train, y_test


def ModelTraing(X_train,X_test,y_train,y_yest):
    #先建立knn演算法模型
    print('knn演算法模型...')
    knn=KNeighborsClassifier(n_neighbors=3)

    #訓練演算法模型
    print('演算法模型訓練...')
    knn.fit(X_train,y_train)

    #訓練模型評估
    result=knn.predict(X_test)
    print('knn訓練模型測試報告:\n')
    print(classification_report(y_test,result,target_names=data['movietype'].unique()))

    return knn


if __name__=='__main__':
    # 設定資料檔案的地址
    filePath = os.getcwd() + '\data' + os.sep + 'movies.csv'
    print(filePath)
    # 載入資料檔案
    data = loaddata(filePath)
    # 資料劃分
    X_train, X_test, y_train, y_test = splitdata(data)
    # 模型訓練
    knn = ModelTraing(X_train, X_test, y_train, y_test)
    # 模型應用
    movietype = knn.predict([[20, 94]])
    print('電影分類預測結果為：{0}'.format(movietype[0]))

程式碼執行結果：

附上GitHub地址 tyutltf/knn_basic: knn的簡單例子 https://github.com/tyutltf/knn_basic

機器學習基礎之knn的簡單例子

knn演算法是人工智慧的基本演算法，類似於語言中的"hello world!",python中的機器學習核心模組：Scikit-Learn Scikit-learn（sklearn）模組，為Python語言實現機器學習的核心模組，其包含了大量的演算法模型函式API，可以讓我們很輕鬆地建立、

機器學習演算法之KNN

1、基本思想物以類聚、人以群分，一個例項與它周圍的例項屬於同一類的概率較大。 2、演算法給定一個訓練資料集，對新輸入的例項，在訓練資料集中找到與該例項最鄰近的k個例項，這k個例項的多數屬於某個類，就

機器學習實戰之KNN演算法

前段時間在京東上購買了這本很多人都推薦的書---機器學習實戰。剛剛看完第一章，感覺本書很適合初學者，特別是對急於應用機器學習但又不想深究理論的小白（像我這樣的）。不過在這裡還是推薦一下李航老師的那本《統計學習方法》，該書注重理論推導及挖掘演算法背後的數學本質，和《機器

機器學習基礎之蒙特卡羅演算法

蒙特·卡羅方法（Monte Carlo method），也稱統計模擬方法，是二十世紀四十年代中期由於科學技術的發展和電子計算機的發明，而被提出的一種以概率統計理論為指導的一類非常重要的數值計算方法。是指使用隨機數（或更常見的偽隨機數）來解決很多計算問題的方法。與它對應的是確

機器學習實戰之KNN分類演算法

示例：使用KNN改進約會網站配對效果(學習這一節把自己需要注意的和理解的記錄下來) 第零步：實現KNN演算法：需注意： classCount[voteIlabel] = classCount.get(voteIlabel,0)+1 #Python 字典(

十大機器學習演算法之KNN（用於信用風險）

k-Nearest Neighbor(簡稱KNN)是“懶惰學習”的代表，此類技術在訓練階段僅僅是將訓練樣本儲存起來，不會去構造一個泛化的內部模型，即訓練開銷為零，帶收到測試集時再進行處理，與之對應的是“急切學習”。演算法原理：對給定的測試樣本，基於某種距離

機器學習筆記之八—— knn-最簡單的機器學習演算法以及KD樹原理

上一節結束了線性迴歸、邏輯迴歸，今天一節來介紹機器學習中最簡單的演算法： K近鄰（KNN，全稱K-nearst Neighbor）概述：判斷一個樣本的label只需要判斷該樣本週圍其他樣本的label。簡言之，朋

機器學習&數據挖掘筆記_16（常見面試之機器學習算法思想簡單梳理）

回歸 utl lsa 多維包含的人相互 oss 一個用戶【轉】　　前言：　　找工作時（IT行業），除了常見的軟件開發以外，機器學習崗位也可以當作是一個選擇，不少計算機方向的研究生都會接觸這個，如果你的研究方向是機器學習/數據挖掘之類，且又對其非常感興趣的話

機器學習入門之python實現圖片簡單分類

numbers org 路徑圖片分類 jpg animal 入門 res windows 小任務：實現圖片分類 1.圖片素材 python批量壓縮jpg圖片: PIL庫 resize http://blog.csdn.net/u012234115/article/

常見面試之機器學習算法思想簡單梳理

聚類優化方法 man 教程貝葉斯理論實現數學之美 c函數交叉驗證前言：　　找工作時（IT行業），除了常見的軟件開發以外，機器學習崗位也可以當作是一個選擇，不少計算機方向的研究生都會接觸這個，如果你的研究方向是機器學習/數據挖掘之類，且又對其非常感興趣的話，可以

小白機器學習基礎演算法學習必經之路（上）

常見的機器學習演算法以下是最常用的機器學習演算法，大部分資料問題都可以通過它們解決： 1.線性迴歸 (Linear Regression) 2.邏輯迴歸 (Logistic Regression) 3.決策樹 (Decision Tree) 4.支援向量機（SVM） 5.樸素貝葉斯

小白機器學習基礎演算法學習必經之路（下）

我們在上文小白機器學習基礎演算法學習必經之路（上）簡述了線性迴歸 (Linear Regression) ，邏輯迴歸 (Logistic Regression) ，決策樹 (Decision Tree) ，支援向量機（SVM），樸素貝葉斯 (Naive Bayes) 現在我們接著繼續學習另五個演算法： &

機器學習排序之Learning to Rank簡單介紹

PS:文章主要轉載自CSDN大神hguisu的文章"機器學習排序": http://blog.csdn.net/hguisu/article/details/7989489 最近需要完成課程作業——分散式排序學習系統.它是在

機器學習筆記之七——邏輯迴歸簡單推導、softmax簡單理解以及sklearn中邏輯迴歸常用引數解釋

邏輯迴歸對邏輯迴歸的理解：對線性迴歸的假設函式的 f(x) 又套上了一層sigmoid函式，即g(f(x)). 然後sigmoid函式是長這樣的：它的影象長這樣：對於線性迴歸得到的結果，再經過一層sigmoid函式，以x=0為界限，左邊為0，右邊為1，邏輯迴歸就是這樣一個二分類

步步學習之用python實戰機器學習1－kNN （K-NearestNeighbors）演算法（a）

我最近才開始接觸機器學習，我大學數學學的幾乎忘了，最近才接觸python。所以我以一個完全初學者角度來學習機器學習。我主要用的書籍就是machine learning in action （機器學習實戰）這本書。我主要是用文中已有的程式碼來講解機器學習。同時對程式碼進行

機器學習基礎（三十四）—— 協同過濾（之獲得推薦）

為未被某人評分的電影的進行打分，我們當然可以查詢品味與此人最為接近（依據相似性度量）的人的相應評分，但是這樣做過於簡單和隨意（permissive）。這種做法的問題在於：我們會找到一個熱衷某部電影的古怪評論者，而根據 topMatch 的結果，所有其他的評論者都

機器學習筆記之R語言基礎5(T,F檢驗）

T檢驗 t檢驗分為單總體檢驗和雙總體檢驗。單總體檢驗：【樣本平均數，總體平均數差異】 -檢驗一個樣本平均數與一個已知的總體平均數的差異是否顯著。 –當總體分佈是正態分佈，如總體標準差未知且樣本容量小於30，那麼樣本平均數與總體平均數的離差統計量呈t

【機器學習系列之四】概率統計學習基礎

這部分介紹概率裡的重要概念，如隨機事件，貝葉斯概率公式。統計裡描述資料分佈的重要概念如期望，方差，眾數，四分位數。統計推斷裡的引數估計 3.1 概率隨機事件：某一事件可能發生，也可能不發生，則稱其為隨機事件頻率：以拋硬幣為例，重複拋十次，若出現4次正面，6次反

機器學習基礎——詳解自然語言處理之tf-idf

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天的文章和大家聊聊文字分析當中的一個簡單但又大名鼎鼎的演算法——TF-idf。說起來這個演算法是自然語言處理領域的重要演算法，但是因為它太有名了，以至於雖然我不是從事NLP領域的，但在面試的時候仍然被問過好幾次，可見這個演算法的重要性。好在演算

機器學習基礎——簡單易懂的K鄰近演算法，根據鄰居“找自己”

本文始發於個人公眾號：**TechFlow**，原創不易，求個關注今天的文章給大家分享機器學習領域非常簡單的模型——KNN，也就是K Nearest Neighbours演算法，翻譯過來很簡單，就是K最近鄰居演算法。這是一個經典的無監督學習的演算法，原理非常直觀，易於理解。監督與無監督簡單介紹一下

機器學習基礎之knn的簡單例子

相關推薦