2. 用scikit-learn估計器分類

阿新 • • 發佈：2018-12-14

# -*- coding: utf-8 -*-
"""
Created on Sat Sep 22 09:43:28 2018

@author: asus
"""
#2 用scikit-learn估計器分類
#估計器（Estimator）：用於分類、聚類和迴歸分析
#轉換器（Transformer）：用於資料預處理和資料轉換
#流水線（Pipeline）：組合資料探勘流程，便於再次使用。

#2.1 scikit-learn估計器
#主要引數
#fit():訓練演算法，設定內部引數。該函式接收訓練集及其類別兩個引數。
#predict():引數為測試集。預測測試集類別，並返回一個包含測試集各條資料類別的陣列。

#scikit-learn提供了大量估計器，其中有支援向量機（SVM）、隨機森林、神經網路等。

#2.1.1 近鄰演算法
#計算量大，在特徵取離散值的資料集上表現很差。

#常用的距離度量，歐氏距離，曼哈頓距離，餘弦距離。

#即將用到的資料集叫作電離層，這些資料是由高頻天線收集的。最後一列，'g'好，'b'壞，為數
#據的好壞，即是否提供了有價值的資訊。

import numpy as np
import csv

data_filename = "E:/books/Python資料探勘入門與實踐/ionosphere.data"
#建立NumPy陣列x和y存放資料集。資料大小已知，共有351行34列。
x = np.zeros((351, 34), dtype='float')
y = np.zeros((351,), dtype='bool')
with open(data_filename, 'r') as input_file:
    reader = csv.reader(input_file)
    #遍歷檔案中的每一行資料。用列舉函式獲得每行的索引號
    for i, row in enumerate(reader):
        #獲取每一個個體的前34個值，將其轉化為浮點型，儲存到X中
        data = [float(datum) for datum in row[:-1]]
        x[i] = data
        #獲得每個個體最後一個表示類別的值，把字母轉化為數字，如果類別為‘g’，值為1，
        #否則為0
        y[i] = row[-1] == 'g'

#2.1.4 努力實現流程標準化

#建立訓練集和測試集
from sklearn.cross_validation import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=14)
#x_train訓練集，x_test測試集。y_train,y_test分別為以上兩個資料集的類別資訊。

#匯入K近鄰分類器這個類，併為其初始化一個例項。預設選擇5個近鄰作為分類依據。
from sklearn.neighbors import KNeighborsClassifier
estimator = KNeighborsClassifier()
#估計器建立好後，接下來就要用訓練資料進行訓練。K近鄰估計器分析訓練集中的資料，比較待分
#類的新資料點和訓練集中的資料，找到新資料點的近鄰。
estimator.fit(x_train, y_train)
#接著，用測試集測試演算法，評估它在測試集上的表現
y_predicted = estimator.predict(x_test)
accuracy = np.mean(y_test == y_predicted) * 100
print("The test accuracy is {:.1f}%".format(accuracy))

#2.1.5 執行演算法
#交叉檢驗
from sklearn.cross_validation import cross_val_score
scores = cross_val_score(estimator, x, y, scoring='accuracy')
average_accuracy = np.mean(scores) * 100
print("The test accuracy is {:.1f}%".format(average_accuracy))

#2.1.6 設定引數
#n_neighbors,選取多少個近鄰作為預測依據。

#測試1到20的n_neighbors
avg_scores = []
all_scores = []
parameter_values = list(range(1, 21))
for n_neighbors in parameter_values:
    estimator = KNeighborsClassifier(n_neighbors=n_neighbors)
    scores = cross_val_score(estimator, x, y, scoring='accuracy')
    #把不同n_neighbors值的得分和平均儲存起來，留作分析用
    avg_scores.append(np.mean(scores))
    all_scores.append(scores)
%matplotlib inline
from matplotlib import pyplot as plt
plt.plot(parameter_values, avg_scores, '-o')

#2.2 流水線在預處理中的應用
#轉換器（Transformer），它接受原始資料集，返回轉換後的資料集。

#2.2.1 預處理案例
#講解需要，先對資料集做些破壞
x_broken = np.array(x) #建立一個副本
x_broken[:,::2] /= 10  #每隔一行，就把第二行的特徵除以10
#數值範圍變了，再次計算正確率
estimator = KNeighborsClassifier()
#原始資料集的正確率
original_scores = cross_val_score(estimator, x, y, scoring='accuracy')
print("The test accuracy is {:.1f}%".format(np.mean(original_scores) * 100))
#副本的正確率
broken_scores = cross_val_score(estimator, x_broken, y, scoring='accuracy')
print("The test accuracy is {:.1f}%".format(np.mean(broken_scores) * 100))

#2.2.2 標準預處理
from sklearn.preprocessing import MinMaxScaler
#規範化，標準化,最小值用0代替，最大值用1代替，其餘值介於兩者之間
x_transformed = MinMaxScaler().fit_transform(x)

#其他規範化方法
#為使每條資料各特徵值的和為1，使用sklearn.preprocessing.Normalizer
#為使各特徵的均值為0，方差為1，使用sklearn.preprocessing.StandardScaler,常用作規範
#化的基準
#為將數值型特徵的二值化，使用sklearn.preprocessing.Binarizer,大於閾值的為1，反之為0

#2.2.3 組裝起來
x_transformed = MinMaxScaler().fit_transform(x_broken)
estimator = KNeighborsClassifier()
transformed_scores = cross_val_score(estimator, x_transformed, y,
                                     scoring='accuracy')
print("The test accuracy is {:.1f}%".format(np.mean(transformed_scores) * 100))
#正確率又再次升回來了
#異常值會影響近鄰演算法，不同演算法對值域大小的敏感度不同

#2.3 流水線
#流水線把這些步驟儲存到資料探勘的工作流中。之後你就可以用它們讀入資料，做各種必要的處
#理，然後給出預測結果。
from sklearn.pipeline import Pipeline
#流水線的輸入為一連串的資料探勘步驟，其中最後一步必須是估計器，前幾步是轉換器。
#每一部都用元組（‘名稱’，步驟）表示。
scaling_pipeline = Pipeline([('scale', MinMaxScaler()),
                             ('predict', KNeighborsClassifier())])
#流水線的核心是元素為元組的列表。第一個元組規範特徵取值範圍，第二個元組實現預測功能。
scores = cross_val_score(scaling_pipeline, x_broken, y, scoring='accuracy')
print("The pipeline scored an average accuracy for is {0:.1f}%".
      format(np.mean(scores) * 100))

2. 用scikit-learn估計器分類

# -*- coding: utf-8 -*- """ Created on Sat Sep 22 09:43:28 2018 @author: asus """ #2 用scikit-learn估計器分類 #估計器（Estimator）：用於分類、聚類和迴歸

python資料探勘與入門實踐（2.2）用sciket-learn估計器分類

接python資料探勘與入門實踐（2.1）用sciket-learn估計器分類三、執行演算法交叉驗證一般分為三類：double-fold CV 即經常所說的2折交叉；10-fold交叉和LOO（leave one out）CV 即留一法交叉。2折：將原始資料集Data

python資料探勘與入門實踐（2.1）用sciket-learn估計器分類

書中主要是用sciket-learn的近鄰演算法進行估計器分類。準備工作：目標 ; -建立分類器，自動判別資料的好壞; 資料集：來自http://archive.ics.uci.edu/ml/machine-learning-dat

python資料探勘入門與實踐--------電離層（Ionosphere）, scikit-learn估計器，K近鄰分類器，交叉檢驗，設定引數

ionosphere.data下載地址：http://archive.ics.uci.edu/ml/machine-learning-databases/ionosphere/ 原始碼及相關資料下載 https://github.com/xxg1413/MachineLea

【轉載】用Scikit-Learn構建K-近鄰算法，分類MNIST數據集

blank 應該距離含義 https 輸入簡單 k-近鄰算法返回原帖地址：https://www.jiqizhixin.com/articles/2018-04-03-5 K 近鄰算法，簡稱 K-NN。在如今深度學習盛行的時代，這個經典的機器學習算法經常被輕視。本

【scikit-learn】評估分類器效能的度量，像混淆矩陣、ROC、AUC等

6. ROC曲線和AUC¶ ROC曲線指受試者工作特徵曲線/接收器操作特性(receiver operating characteristic，ROC)曲線, 是反映靈敏性和特效性連續變數的綜合指標,是用構圖法揭示敏感性和特異性的相互關係，它通過將連續變數設定出多個不同的臨界值，從而計算出一系列敏感性和特異

教程 | 用Scikit-Learn實現多類別文字分類

原文連結：https://towardsdatascience.com/multi

用scikit-learn學習LDA主題模型

大小 href 房子鏈接 size 目標文本訓練樣本 papers 　　　　在LDA模型原理篇我們總結了LDA主題模型的原理，這裏我們就從應用的角度來使用scikit-learn來學習LDA主題模型。除了scikit-learn, 還有spark MLlib和gen

scikit-learn 中KNN分類繪圖

scikit-learn 中KNN分類繪圖參考連結： KNN相關的類庫概述： https://www.cnblogs.com/pinard/p/6065607.html 下載的toy資料集： https://blog.csdn.net/sa14023053/a

應用scikit-learn做文字分類

###################################################### #Multinomial Naive Bayes Classifier print '*************************\nNaive Bayes\n*****************

《機器學習系統設計》之應用scikit-learn做文字分類（上）

前言：本系列是在作者學習《機器學習系統設計》（[美] WilliRichert）過程中的思考與實踐，全書通過Python從資料處理，到特徵工程，再到模型選擇，把機器學習解決問題的過程一一呈現。書中設計的原始碼和資料集已上傳到我的資源：http://download

用scikit-learn學習K-Means聚類

　　　　在K-Means聚類演算法原理中，我們對K-Means的原理做了總結，本文我們就來討論用scikit-learn來學習K-Means聚類。重點講述如何選擇合適的k值。 1. K-Means類概述　　　　在scikit-learn中，包括兩個K-Means的演算法，一個是傳統的K-Means演算法，對

用scikit-learn的joblib儲存訓練模型

有時候訓練一個模型要很久的時間，為了防止以後使用需要重新訓練，可以使用scikit-learn的joblib來把模型儲存到本地。之後需要用的時候，在載入就行了 import sklearn.exter

十一、用scikit-learn做聚類分析

線性迴歸和邏輯迴歸都是監督學習方法，聚類分析是非監督學習的一種，可以從一批資料集中探索資訊，比如在社交網路資料中可以識別社群，在一堆菜譜中識別出菜系。本節介紹K-means聚類演算法 K-means k是一個超引數，表示要聚類成多少類。K-means計算方法是重複移

用scikit-learn掌握機器學習（三）特徵提取和預處理

從分類資料中提取特徵 from sklearn.feature_extraction import DictVectorizer onehot_encoder = DictVectorizer() #字典轉onehot用DictVectorizer() i

使用scikit-learn進行文字分類

1. 資料來源所用的資料是分類好的資料，詳細描述見SMS Spam Collection v. 1，可以從github下載，資料在第4章。每一行資料包括包括兩列，使用逗號隔開，第1列是分類（lable），第2列是文字。 sms = pd.read_csv(filen

機器學習實戰(用Scikit-learn和TensorFlow進行機器學習)(三)

上一節講述了真實資料（csv表格資料）訓練集的檢視與預處理以及Pineline的基本架構。今天接著往下進行實戰操作，會用到之前的資料和程式碼，如果有問題請檢視上一節。三、開始實戰 7、選擇及訓練模型首先嚐試訓練一個線性迴歸模型（Line

十、用scikit-learn的網格搜尋快速找到最優模型引數

任何一種機器學習模型都附帶很多引數，不同場景對應不同的最佳引數，手工嘗試各種引數無疑浪費很多時間，scikit-learn幫我們實現了自動化，那就是網格搜尋網格搜尋這裡的網格指的是不同引數不同取值交叉後形成的一個多維網格空間。比如引數a可以取1、2，引數b可以取3、4，引數c可以取5、6，那麼形

用scikit-learn研究區域性線性嵌入(LLE)

　　　　在區域性線性嵌入(LLE)原理總結中，我們對流形學習中的區域性線性嵌入(LLE)演算法做了原理總結。這裡我們就對scikit-learn中流形學習的一些演算法做一個介紹，並著重對其中LLE演算法的使用方法做一個實踐上的總結。 1. scikit-learn流形學習庫

《機器學習系統設計》之應用scikit-learn做文字分類（下）

# inspired by http://scikit- # learn.org/dev/auto_examples/cluster/plot_kmeans_digits.html#example- # cluster-plot-kmeans-digits-py import os import scipy

2. 用scikit-learn估計器分類

相關推薦