sklearn分類器、資料集的劃分

阿新 • • 發佈：2019-01-10

https://www.cnblogs.com/hhh5460/p/5132203.html

大致可以將這些分類器分成兩類： 1）單一分類器，2）整合分類器

一、單一分類器

下面這個例子對一些單一分類器效果做了比較

# coding=utf-8
from sklearn.cross_validation import cross_val_score
from sklearn.datasets import make_blobs

# meta-estimator
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis

classifiers = {
    'KN': KNeighborsClassifier(3),
    'SVC': SVC(kernel="linear", C=0.025),
    'SVC': SVC(gamma=2, C=1),
    'DT': DecisionTreeClassifier(max_depth=5),
    'RF': RandomForestClassifier(n_estimators=10, max_depth=5, max_features=1),  # clf.feature_importances_
    'ET': ExtraTreesClassifier(n_estimators=10, max_depth=None),  # clf.feature_importances_
    'AB': AdaBoostClassifier(n_estimators=100),
    'GB': GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0),
# clf.feature_importances_
    'GNB': GaussianNB(),
    'LD': LinearDiscriminantAnalysis(),
    'QD': QuadraticDiscriminantAnalysis()}

X, y = make_blobs(n_samples=10000, n_features=10, centers=100, random_state=0)

for name, clf in classifiers.items():
    scores = cross_val_score(clf, X, y)
    print(name, '\t--> ', scores.mean())

下圖是效果圖：

二、整合分類器

整合分類器有四種：Bagging, Voting, GridSearch, PipeLine。最後一個PipeLine其實是管道技術

1.Bagging

from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier

meta_clf = KNeighborsClassifier() 
bg_clf = BaggingClassifier(meta_clf, max_samples=0.5, max_features=0.5)

2.Voting

from sklearn import datasets
from sklearn import cross_validation
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import VotingClassifier

iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target

clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()

eclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='hard', weights=[2,1,2])

for clf, label in zip([clf1, clf2, clf3, eclf], ['Logistic Regression', 'Random Forest', 'naive Bayes', 'Ensemble']):
    scores = cross_validation.cross_val_score(clf, X, y, cv=5, scoring='accuracy')
    print("Accuracy: %0.2f (+/- %0.2f) [%s]" % (scores.mean(), scores.std(), label))

3.GridSearch

import numpy as np

from sklearn.datasets import load_digits

from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn.grid_search import RandomizedSearchCV

# 生成資料
digits = load_digits()
X, y = digits.data, digits.target

# 元分類器
meta_clf = RandomForestClassifier(n_estimators=20)

# =================================================================
# 設定引數
param_dist = {"max_depth": [3, None],
              "max_features": sp_randint(1, 11),
              "min_samples_split": sp_randint(1, 11),
              "min_samples_leaf": sp_randint(1, 11),
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}

# 執行隨機搜尋 RandomizedSearch
n_iter_search = 20
rs_clf = RandomizedSearchCV(meta_clf, param_distributions=param_dist,
                                   n_iter=n_iter_search)

start = time()
rs_clf.fit(X, y)
print("RandomizedSearchCV took %.2f seconds for %d candidates"
      " parameter settings." % ((time() - start), n_iter_search))
print(rs_clf.grid_scores_)

# =================================================================
# 設定引數
param_grid = {"max_depth": [3, None],
              "max_features": [1, 3, 10],
              "min_samples_split": [1, 3, 10],
              "min_samples_leaf": [1, 3, 10],
              "bootstrap": [True, False],
              "criterion": ["gini", "entropy"]}

# 執行網格搜尋 GridSearch
gs_clf = GridSearchCV(meta_clf, param_grid=param_grid)
start = time()
gs_clf.fit(X, y)

print("GridSearchCV took %.2f seconds for %d candidate parameter settings."
      % (time() - start, len(gs_clf.grid_scores_)))
print(gs_clf.grid_scores_)

4.PipeLine

第一個例子

from sklearn import svm
from sklearn.datasets import samples_generator
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
from sklearn.pipeline import Pipeline

# 生成資料
X, y = samples_generator.make_classification(n_informative=5, n_redundant=0, random_state=42)

# 定義Pipeline，先方差分析，再SVM
anova_filter = SelectKBest(f_regression, k=5)
clf = svm.SVC(kernel='linear')
pipe = Pipeline([('anova', anova_filter), ('svc', clf)])

# 設定anova的引數k=10，svc的引數C=0.1（用雙下劃線"__"連線！）
pipe.set_params(anova__k=10, svc__C=.1)
pipe.fit(X, y)

prediction = pipe.predict(X)

pipe.score(X, y)                        

# 得到 anova_filter 選出來的特徵
s = pipe.named_steps['anova'].get_support()
print(s)

第二個例子

import numpy as np

from sklearn import linear_model, decomposition, datasets
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV


digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target

# 定義管道，先降維(pca)，再邏輯迴歸
pca = decomposition.PCA()
logistic = linear_model.LogisticRegression()
pipe = Pipeline(steps=[('pca', pca), ('logistic', logistic)])

# 把管道再作為grid_search的estimator
n_components = [20, 40, 64]
Cs = np.logspace(-4, 4, 3)
estimator = GridSearchCV(pipe, dict(pca__n_components=n_components, logistic__C=Cs))

estimator.fit(X_digits, y_digits)

進行預測可以有幾種形式：

1）、predict_proba(x)：給出帶有概率值的結果。每個點在所有label的概率和為1.

2）、predict(x)：直接給出預測結果。內部還是呼叫的predict_proba()，根據概率的結果看哪個型別的預測值最高就是哪個型別。

3）、predict_log_proba(x)：和predict_proba基本上一樣，只是把結果給做了log()處理。

sklearn資料集劃分方法有如下方法：

KFold，GroupKFold，StratifiedKFold，LeaveOneGroupOut，LeavePGroupsOut，LeaveOneOut，LeavePOut，ShuffleSplit，GroupShuffleSplit，StratifiedShuffleSplit，PredefinedSplit，TimeSeriesSplit，

① K折交叉驗證：KFold，GroupKFold，StratifiedKFold，

將全部訓練集S分成k個不相交的子集，假設S中的訓練樣例個數為m，那麼每一個自己有m/k個訓練樣例，相應的子集為{s₁，s₂，...，s_k}
每次從分好的子集裡面，拿出一個作為測試集，其他k-1個作為訓練集
在k-1個訓練集上訓練出學習器模型
把這個模型放到測試集上，得到分類率的平均值，作為該模型或者假設函式的真實分類率

這個方法充分利用了所以樣本，但計算比較繁瑣，需要訓練k次，測試k次

② 留一法：LeaveOneGroupOut，LeavePGroupsOut，LeaveOneOut，LeavePOut，

留一法驗證（Leave-one-out，LOO）：假設有N個樣本，將每一個樣本作為測試樣本，其他N-1個樣本作為訓練樣本，這樣得到N個分類器，N個測試結果，用這N個結果的平均值來衡量模型的效能
如果LOO與K-fold CV比較，LOO在N個樣本上建立N個模型而不是k個，更進一步，N個模型的每一個都是在N-1個樣本上訓練的，而不是（k-1）*n/k。兩種方法中，假定k不是很大而且k<<N，LOO比k-fold CV更耗時
留P法驗證（Leave-p-out）：有N個樣本，將每P個樣本作為測試樣本，其它N-P個樣本作為訓練樣本，這樣得到個train-test pairs，不像LeaveOneOut和KFold，當P>1時，測試集將會發生重疊，當P=1的時候，就變成了留一法

③ 隨機劃分法：ShuffleSplit，GroupShuffleSplit，StratifiedShuffleSplit

ShuffleSplit迭代器產生指定數量的獨立的train/test資料集劃分，首先對樣本全體隨機打亂，然後再劃分出train/test對，可以使用隨機數種子random_state來控制數字序列發生器使得訊算結果可重現
ShuffleSplit是KFlod交叉驗證的比較好的替代，他允許更好的控制迭代次數和train/test的樣本比例
StratifiedShuffleSplit和ShuffleSplit的一個變體，返回分層劃分，也就是在建立劃分的時候要保證每一個劃分中類的樣本比例與整體資料集中的原始比例保持一致

#ShuffleSplit 把資料集打亂順序，然後劃分測試集和訓練集，訓練集額和測試集的比例隨機選定，訓練集和測試集的比例的和可以小於1

sklearn分類器、資料集的劃分

https://www.cnblogs.com/hhh5460/p/5132203.html 大致可以將這些分類器分成兩類： 1）單一分類器，2）整合分類器一、單一分類器下面這個例子對一些單一分類器效果做了比較 # coding=utf-8 from sklea

資料探勘-K-近鄰分類器-Iris資料集分析-使用K-近鄰分類器進行分類預測(四)

# coding: utf-8 #使用 scikit-learn庫的K-近鄰分類器完成分類 #1. 首先將資料集中的資料進行打亂 #2. 將資料分為訓練集和測試集兩部分 #3. 使用 k-means分類器進行分類訓練，得到預測模型 #4. 使用模型對測試集進行測試，並與真實

吳恩達-機器學習(6)-評估學習演算法、偏差與方差、構架垃圾郵件分類器、處理傾斜資料

文章目錄 Evaluating a Learing Algorithm Decidding what to try next Evaluating your hypothesis Bias

手把手教你在Python中實現文字分類（附程式碼、資料集）

作者： Shivam Bansal 翻譯：申利彬校對：丁楠雅本文約2300字，建議

再論sklearn分類器

iter zip 效果圖 nts cnblogs port score entropy pos https://www.cnblogs.com/hhh5460/p/5132203.html 這幾天在看 sklearn 的文檔，發現他的分類器有很多，這裏做一些簡略的記錄。大

Python機器學習實踐指南 pdf 下載（中文版帶書籤）、原書程式碼、資料集

機器學習正在迅速成為資料驅動型世界的一個bi備模組。許多不同的領域，如機器人、醫學、零售和出版等，都需要依賴這門技術。通過閱讀 Python機器學習實踐指南，你將學習如何一步步構建真實的機器學習應用程式。 Python機器學習實踐指南以通俗易懂，簡潔明瞭的方式，教你如何使用機器

二分類之IMDB資料集

電影評論好壞分類(隨筆) 載入資料集 from keras.datasets import imdb (train_data, train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000) ##此處10000是為了保留訓練資

機器學習 - 正則化方法：L1和L2 regularization、資料集擴增、dropout

正則化方法：防止過擬合，提高泛化能力常用的正則化方法有：L1正則化；L2正則化；資料集擴增；Droupout方法 (1) L1正則化 (2) L2正則化 (3) Droupout 【參考】https://blog.cs

第3章決策樹（ID3演算法、建立繪製決策樹、分類器、儲存、預測隱性眼鏡型別）

ID3演算法 ID3演算法的核心是在決策樹各個結點上對應資訊增益準則選擇特徵，遞迴地構建決策樹。具體方法是：從根結點(root node)開始，對結點計算所有可能的特徵的資訊增益，選擇資訊增益最大的特徵作為結點的特徵，由該特徵的不同取值建立子節點；再對子結點遞迴地呼叫以上方法，構建決策樹

sklearn學習-3-樣本資料集

# -*- coding: utf-8 -*- """ Created on Mon Jul 2 16:02:56 2018 @author: GY """ #監督學習 #-------------------------------------------------------------

css交集選擇器、並集選擇器、兄弟選擇器

一，交集選擇器 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>15-css交集選擇器.

HTML &CSS之複合選擇器中的交集選擇器、並集選擇器、後代選擇器、子元素選擇器、相鄰兄弟選擇器、屬性選擇器

複合選擇器是通過基本選擇器進行組合後構成的，常用的複合選擇器有：交集選擇器、並集選擇器、後代選擇器、子元素選擇器、相鄰兄弟選擇器和屬性選擇器等。 1. 交集選擇器交集選擇器由兩個選擇器直接構成

Person Re-ID相關知識點、資料集及評估指標總結

0. 背景人臉識別技術目前已發展的較為成熟，在很多場景與產品中都已有落地的應用，但人臉識別技術只能用到人體的人臉資訊，而人體的其他重要資訊得不到充分的利用，例如：衣著、姿態、行為等。另外在應用時必須要有清晰的人臉正面照片，但在很多場景下無法滿足要求，例如低頭、背影、模糊身形、帽子遮

正則化方法：L1和L2 regularization、資料集擴增、dropout

正則化方法：防止過擬合，提高泛化能力在訓練資料不夠多時，或者overtraining時，經常會導致overfitting（過擬合）。其直觀的表現例如以下圖所看到的。隨著訓練過程的進行，模型複雜度新增，在training data上的error漸漸減小。可是在驗證集上的error卻反而漸漸增

python資料預處理（抽樣、資料集轉換）

博文：python大規模資料處理技巧之二：機器學習中常用操作（http://blog.csdn.net/asdfg4381/article/details/51725424） 1、資料預處理隨機化操作機器學習中的常用隨機化操作中可以使用random包做不重

機器學習-交叉驗證 : python資料集劃分

模型選擇的兩種方法：正則化（典型方法）、交叉驗證。這裡介紹交叉驗證及其python程式碼實現。交叉驗證如果給定樣本資料充足，進行模型選擇的一種簡單方法是隨機地將資料集切分為3部分，分為訓練集、驗證集和測試集。訓練集：訓練模型驗證集：模型的選擇測試集：最終對模型的評估在學習到不

cs231學習筆記二線性分類器、SVM、Softmax

線性分類器假設樣本xi∈RD,i=1…N，對應類標籤yi∈1…K。現定義一個線性對映f(xi,W,b)=Wxi+b，W是K∗D的矩陣，b是K維的向量。W和b分別稱作權重（或引數）和偏。 W的每一行都是一個分類器，每個分類器對應於一個得分。通過學

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

Matlab中常用的分類器有隨機森林分類器、支援向量機（SVM）、K近鄰分類器、樸素貝葉斯、整合學習方法和鑑別分析分類器等。各分類器的相關Matlab函式使用方法如下：首先對以下介紹中所用到的一些變數做統一的說明： train_data——訓練樣本，矩陣的每

計算機視覺（七）：構建兩層的神經網路來分類Cifar-10資料集

1 - 引言之前我們學習了神經網路的理論知識，現在我們要自己搭建一個結構為如下圖所示的神經網路，對Cifar-10資料集進行分類前向傳播比較簡單，就不在贅述反向傳播需要注意的是，softmax的反向傳播與之前寫的softmax程式碼一樣。神經網路內部的反向傳播權重偏導就是前面

計算機視覺（六）：使用Softmax分類Cifar-10資料集

1 - 引言這次，我們將使用Softmax來分類Cifar-10，過程其實很之前使用的SVM過程差不多，主要區別是在於損失函式的不同，而且Softmax分類器輸出的結果是輸入樣本在不同類別上的概率值大小,Softmax分類器也叫多項Logistic迴歸線性模型:

sklearn分類器、資料集的劃分

一、單一分類器

二、整合分類器

1.Bagging

2.Voting

3.GridSearch

4.PipeLine

進行預測可以有幾種形式：

相關推薦