sklearn實戰：糖尿病預測（knn演算法）

阿新 • • 發佈：2019-01-01

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# 載入資料
data = pd.read_csv('datasets/pima-indians-diabetes/diabetes.csv')
print('dataset shape {}'.format(data.shape))
data.head()

dataset shape (768, 9) .dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

Pregnancies	Glucose	BloodPressure	SkinThickness	Insulin	BMI	DiabetesPedigreeFunction	Age	Outcome
0	6	148	72	35	0	33.6	0.627	50	1
1	1	85	66	29	0	26.6	0.351	31	0
2	8	183	64	0	0	23.3	0.672	32	1
3	1	89	66	23	94	28.1	0.167	21	0
4	0	137	40	35	168	43.1	2.288	33	1

data.groupby("Outcome").size()

Outcome
0    500
1    268
dtype: int64

X = data.iloc[:, 0:8]
Y = data.iloc[:, 8]
print('shape of X {}; shape of Y {}'.format(X.shape, Y.shape))

shape of X (768, 8); shape of Y (768,)

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2);

from sklearn.neighbors import KNeighborsClassifier, RadiusNeighborsClassifier

models = []
models.append(("KNN", KNeighborsClassifier(n_neighbors=2)))
models.append(("KNN with weights", KNeighborsClassifier(
    n_neighbors=2, weights="distance")))
models.append(("Radius Neighbors", RadiusNeighborsClassifier(
    n_neighbors=2, radius=500.0)))

results = []
for name, model in models:
    model.fit(X_train, Y_train)
    results.append((name, model.score(X_test, Y_test)))
for i in range(len(results)):
    print("name: {}; score: {}".format(results[i][0],results[i][1]))

name: KNN; score: 0.7077922077922078
name: KNN with weights; score: 0.6428571428571429
name: Radius Neighbors; score: 0.6753246753246753

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

results = []
for name, model in models:
    kfold = KFold(n_splits=10)
    cv_result = cross_val_score(model, X, Y, cv=kfold)
    results.append((name, cv_result))
for i in range(len(results)):
    print("name: {}; cross val score: {}".format(
        results[i][0],results[i][1].mean()))

name: KNN; cross val score: 0.7147641831852358
name: KNN with weights; cross val score: 0.6770505809979495
name: Radius Neighbors; cross val score: 0.6497265892002735

模型訓練

knn = KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train, Y_train)
train_score = knn.score(X_train, Y_train)
test_score = knn.score(X_test, Y_test)
print("train score: {}; test score: {}".format(train_score, test_score))

train score: 0.8501628664495114; test score: 0.7077922077922078

from sklearn.model_selection import ShuffleSplit
from common.utils import plot_learning_curve

knn = KNeighborsClassifier(n_neighbors=2)
cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
plt.figure(figsize=(10, 6), dpi=200)
plot_learning_curve(plt, knn, "Learn Curve for KNN Diabetes", 
                    X, Y, ylim=(0.0, 1.01), cv=cv);

這裡寫圖片描述

資料視覺化

from sklearn.feature_selection import SelectKBest

selector = SelectKBest(k=2)
X_new = selector.fit_transform(X, Y)
X_new[0:5]

array([[148. ,  33.6],
       [ 85. ,  26.6],
       [183. ,  23.3],
       [ 89. ,  28.1],
       [137. ,  43.1]])

results = []
for name, model in models:
    kfold = KFold(n_splits=10)
    cv_result = cross_val_score(model, X_new, Y, cv=kfold)
    results.append((name, cv_result))
for i in range(len(results)):
    print("name: {}; cross val score: {}".format(
        results[i][0],results[i][1].mean()))

name: KNN; cross val score: 0.725205058099795
name: KNN with weights; cross val score: 0.6900375939849623
name: Radius Neighbors; cross val score: 0.6510252904989747

# 畫出資料
plt.figure(figsize=(10, 6), dpi=200)
plt.ylabel("BMI")
plt.xlabel("Glucose")
plt.scatter(X_new[Y==0][:, 0], X_new[Y==0][:, 1], c='r', s=20, marker='o');         # 畫出樣本
plt.scatter(X_new[Y==1][:, 0], X_new[Y==1][:, 1], c='g', s=20, marker='^');         # 畫出樣本

這裡寫圖片描述

sklearn實戰：糖尿病預測（knn演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np import pandas as pd # 載入資料 data = pd.read_csv('datas

小白python學習——機器學習篇——k-近鄰演算法（KNN演算法）

一、演算法理解一般給你一資料集，作為該題目的資料（一個矩陣，每一行是所有特徵），而且每一組資料都是分了類，然後給你一個數據，讓這個你預測這組資料屬於什麼類別。你需要對資料集進行處理，如：歸一化數值。處理後可以用matplotlib繪製出影象，一般選兩個特徵繪製x，y軸，然後核心是計算出預測點到

K-近鄰法（KNN演算法）

1、kNN演算法（K 最近鄰(k-Nearest Neighbors)）描述簡單地說，k-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 k-近鄰演算法是一種基本分類與迴歸方法；它是是監督學習中分類方法的一種，屬於懶散學習法（惰性學習方法）。給定一個訓練集

問題與不足（KNN演算法）

問題與不足論文題目：k-NearestNeighbors on Road Networks: A Journey in Experimentation and In-MemoryImplementation 該論文主要研究了K Nearest Neighbor演算法在

TensorFlow實戰：Chapter-1（TensorFlow介紹）

人工智慧、機器學習與深度學習從計算機發明之初，人們就希望它能代替人們完成重複性勞動，而計算機要想像人類一樣智慧的完成許多工作，需要掌握這個世界海量的知識。為了使計算機更多的掌握開放環境(open domain)下的知識，研究人員做了許多工作，其

sklearn實戰：對文件進行聚類分析（KMeans演算法）

%matplotlib inline import matplotlib.pyplot as plt import numpy as np from time import time from sklearn.datasets import load_fi

Python3《機器學習實戰》學習筆記（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

一、前言本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。二、嶺迴歸如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩

AI產品經理必懂演算法：k-近鄰（KNN）演算法

我們之所以要了解演算法，不僅僅有利於和演算法同學的溝通，更能深入的理解人工智慧為產品賦能的過程，只有將這個過程瞭解透徹，才能清晰明確的把握產品的方向，挖掘產品的亮點。那麼，今天我們就從一個最為簡單、易懂的“k-近鄰（KNN）演算法”聊起，KNN屬於監督學習演算法，即可以用於分類，也可以用於迴歸，後續還會逐

sklearn實戰：使用knn進行迴歸擬合

%matplotlib inline import matplotlib.pyplot as plt import numpy as np # 生成訓練樣本 n_dots = 40 X = 5 * np.random.rand(n_dots, 1) y

演算法題1：反轉整數（python3實現）

給定一個 32 位有符號整數，將整數中的數字進行反轉。示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21 注意: 假設我們的環境只能儲存 32 位有符號整數

優化演算法：牛頓法（Newton法）

學習深度學習時遇到二階優化演算法牛頓法，查閱了相關書籍進行記錄。：函式的梯度向量 :函式的Hessian矩陣，其第i行第j列的元素為. 假設是二階連續可微函式，。最速下降法因為迭代路線呈鋸齒形，固收斂速度慢，僅是線性的。最速下降法本質使用線性函式去近似目標函式。要得到快速的演算法，

TensorFlow 實戰（二）—— tf train（優化演算法）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

HDU2255：奔小康賺大錢（KM演算法）

奔小康賺大錢 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 14608

資料庫SQL實戰：MySql練習（下）

文章目錄 31. 獲取select * from employees對應的執行計劃 32. 將employees表的所有員工的last_name和first_name拼接起來作為Name，中間以一個空格區分 33. 建立一個actor表，包含如

資料庫SQL實戰：MySql練習（上）

文章目錄 1. 查詢最晚入職員工的所有資訊 2. 查詢入職員工時間排名倒數第三的員工所有資訊 3. 查詢各個部門當前(to_date='9999-01-01')領導當前薪水詳情以及其對應部門編號dept_no 4. 查詢所有已經分配部門

sklearn的快速使用之九（推薦演算法）

""" ============== 構建電影推薦系統 ============== http://blog.csdn.net/u013185349/article/details/61192218 """ print(__doc__) # 電影打分資料 data = {'Lisa Rose

專案二：Kaggle房價預測（前篇）

概述 Kaggle房價預測比賽(高階技能篇) notebook的背景是kaggle房價預測比賽高階迴歸技能篇背景搬運如下：這個notebook主要是通過資料探索和資料視覺化來實現。我們把這個過程叫做EDA（(Exploratory Data Analysi

雙目立體匹配經典演算法之Semi-Global Matching（SGM）概述：代價聚合（Cost Aggregation）

由於代價計算步驟只考慮了局部的相關性，對噪聲非常敏感，無法直接用來計算最優視差，所以SGM演算法通過代價聚合步驟，使聚合後的代價值能夠更準確的反應畫素之間的相關性，如圖1所示。聚合後的新的代價值儲存在與匹配代價空間C同樣大小的聚合代價空間S中，且元素位置一一對應。圖1：代價聚合

排序演算法(六)：快速排序（Quick Sort）

基本思想： 1）選擇一個基準元素,通常選擇第一個元素或者最後一個元素, 2）通過一趟排序講待排序的記錄分割成獨立的兩部分，其中一部分記錄的元素值均比基準元素值小。另一部分記錄的元素值比基準值大。 3）此時基準元素在其排好序後的正確位置 4）然後分別對這兩部分記錄用同樣

排序演算法(五)：氣泡排序（Bubble Sort）

基本思想：在要排序的一組數中，對當前還未排好序的範圍內的全部數，自上而下對相鄰的兩個數依次進行比較和調整，讓較大的數往下沉，較小的往上冒。即：每當兩相鄰的數比較後發現它們的排序與排序要求相反時，就將它們互換。氣泡排序的示例：演算法的實現： public v

sklearn實戰：糖尿病預測（knn演算法）

模型訓練

資料視覺化

相關推薦