python sklearn包——混淆矩陣、分類報告等自動生成

阿新 • • 發佈：2019-01-05

preface：做著最近的任務，對資料處理，做些簡單的提特徵，用機器學習演算法跑下程式得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函式，故將自己常用函式記錄上。應該說這些函式基本上都會用到，像是資料預處理，處理完了後特徵提取、降維、訓練預測、通過混淆矩陣看分類效果，得出報告。

1.輸入

從資料集開始，提取特徵轉化為有標籤的資料集，轉為向量。拆分成訓練集和測試集，這裡不多講，在上一篇部落格中談到用StratifiedKFold()函式即可。在訓練集中有data和target開始。

2.處理

def my_preprocessing(train_data):

    from sklearn import preprocessing
    X_normalized = preprocessing.normalize(train_data ,norm = "l2",axis=0)#使用l2正規化，對特徵列進行正則
    return X_normalized
def my_feature_selection(data, target):
    from sklearn.feature_selection import SelectKBest
    from sklearn.feature_selection import chi2

    data_new = SelectKBest(chi2, k= 50).fit_transform(data,target)
    return data_new
def my_PCA(data):#data without target, just train data, withou train target.
    from sklearn import decomposition
    pca_sklearn = decomposition.PCA()
    pca_sklearn.fit(data)
    main_var = pca_sklearn.explained_variance_

    print sum(main_var)*0.9
    import matplotlib.pyplot as plt
    n = 15
    plt.plot(main_var[:n])
    plt.show()
def clf_train(data,target):
    from sklearn import svm
    #from sklearn.linear_model import LogisticRegression
    clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)
    clf.fit(data,target)
    #clf_LR = LogisticRegression()
    #clf_LR.fit(x_train, y_train)
    #y_pred_LR = clf_LR.predict(x_test)
    return clf
def my_confusion_matrix(y_true, y_pred):
    from sklearn.metrics import confusion_matrix
    labels = list(set(y_true))
    conf_mat = confusion_matrix(y_true, y_pred, labels = labels)
    print"confusion_matrix(left labels: y_true, up labels: y_pred):"
    print"labels\t",
    for i in range(len(labels)):
        print labels[i],"\t",
    print
    for i in range(len(conf_mat)):
        print i,"\t",
        for j in range(len(conf_mat[i])):
            print conf_mat[i][j],'\t',
        print
    print
def my_classification_report(y_true, y_pred):
    from sklearn.metrics import classification_report
    print"classification_report(left: labels):"
    print classification_report(y_true, y_pred)

my_preprocess()函式：

主要使用sklearn的preprocessing函式中的normalize()函式，預設引數為l2正規化，對特徵列進行正則處理。即每一個樣例，處理標籤，每行的平方和為1.

my_feature_selection()函式：

使用sklearn的feature_selection函式中SelectKBest()函式和chi2()函式，若是用詞袋提取了很多維的稀疏特徵，有必要使用卡方選取前k個有效的特徵。

my_PCA()函式：

主要用來觀察前多少個特徵是主要特徵，並且畫圖。看看前多少個特徵佔據主要部分。

clf_train()函式：

可用多種機器學習演算法，如SVM, LR, RF, GBDT等等很多，其中像SVM需要調引數的，有專門除錯引數的函式如StratifiedKFold()（見前幾篇部落格）。以達到最優。

my_confusion_matrix()函式：

主要是針對預測出來的結果，和原來的結果對比，算出混淆矩陣，不必自己計算。其對每個類別的混淆矩陣都計算出來了，並且labels引數預設是排序了的。

my_classification_report()函式：

主要通過sklearn.metrics函式中的classification_report()函式，針對每個類別給出詳細的準確率、召回率和F-值這三個引數和巨集平均值，用來評價演算法好壞。另外ROC曲線的話，需要是對二分類才可以。多類別似乎不行。

python sklearn包——混淆矩陣、分類報告等自動生成

preface：做著最近的任務，對資料處理，做些簡單的提特徵，用機器學習演算法跑下程式得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函式，故將自己常用函式記錄上。應該說這些函式基本上都會用到，像是資料預處理，處理完了後特徵提取、降維、訓練預測、通過混淆矩陣看

機器學習：評價分類結果（實現混淆矩陣、精準率、召回率）

test set 目的 mod 二分參數 nbsp return try 一、實例　1）構造極度偏差的數據 import numpy as np from sklearn import datasets digits = datasets.load_digits

【scikit-learn】評估分類器效能的度量，像混淆矩陣、ROC、AUC等

6. ROC曲線和AUC¶ ROC曲線指受試者工作特徵曲線/接收器操作特性(receiver operating characteristic，ROC)曲線, 是反映靈敏性和特效性連續變數的綜合指標,是用構圖法揭示敏感性和特異性的相互關係，它通過將連續變數設定出多個不同的臨界值，從而計算出一系列敏感性和特異

Python sklearn包——mnist資料集下不同分類器的效能實驗

Preface：使用scikit-learn各種分類演算法對資料進行處理。 2.2、Scikit-learn的測試 scikit-learn已經包含在Anaconda中。也可以在官方下載原始碼包進行安裝。本文程式碼裡封裝瞭如下機器學習演算法，我們修改資料載入函式，即可

二分類問題中混淆矩陣、PR以及AP評估指標

仿照上篇博文對於混淆矩陣、ROC和AUC指標的探討，本文簡要討論機器學習二分類問題中的混淆矩陣、PR以及AP評估指標；實際上，（ROC,AUC）與（PR,AP）指標對具有某種相似性。 ####按照循序漸進的原則，依次討論混淆矩陣、PR和AP：設定一個機器學習問題情境：給定一些腫瘤患者樣本，構建一個分類模

Python sklearn包的使用示例以及引數調優示例

coding=utf-8 !/usr/bin/env python ””’ 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2.3] [ 6.3

真假正負例、混淆矩陣、ROC曲線、召回率、準確率、F值、AP

[轉自：https://blog.csdn.net/yimingsilence/article/details/53769861] 一、假正例和假負例假正例（False Positive）：預測為1，實際為0的樣本假負例（False N

關於混淆矩陣、ROC、AUC的問題

相信關於混淆矩陣、ROC和AUC的問題一直困擾著大家，要想搞懂ROC和AUC，首先要明白混淆矩陣是什麼。混淆矩陣中有著Positive、Negative、True、False的概念，其意義如下：稱預測類別為1的為Positive（陽性），預測類別為0的為Negativ

python sklearn包——cross validation筆記

preface：做實驗少不了交叉驗證，平時常用from sklearn.cross_validation import train_test_split，用train_test_split()函式將資料集分為訓練集和測試集，但這樣還不夠。當需要除錯引數的時候便要用到K-f

混淆矩陣、精度precision、召回率recall、準確率accuracy、F1值

混淆矩陣 True Positive(真正，TP)：將正類預測為正類數 True Negative(真負，TN)：將負類預測為負類數 False Positive(假正，FP)：將負類預測為正類數誤報

java計算混淆矩陣（分類指標：查準率P，查全率R，P和R的調和均值F1，正確率A）

【0】README 本文使用 java 計算混淆矩陣，並利用混淆矩陣值計算分類指標；通用分類指標有：查準率，查全率，查準率和查全率的調和均值F1值，正確率， AOC， AUC等；本文計算前4個指標；（附原始碼和結果截圖）【1】什麼是混淆矩陣（借用自己PPT截圖）

【機器學習】Python sklearn包的使用示例以及引數調優示例

# coding=utf-8 # !/usr/bin/env python ''''' 【說明】 1.當前sklearn版本0.18 2.sklearn自帶的鳶尾花資料集樣例：（1）樣本特徵矩陣（型別：numpy.ndarray） [[ 6.7 3. 5.2 2

檢驗方法、混淆矩陣、模型評估

假設 H0 ：零假設，不能輕易被否定的命題作為原假設 H1 ：把無把握的、不能輕易肯定的命題作為備擇假設如果一個統計檢驗的結果拒絕零假設（結論不支援零假設），而實際上真實的情況屬於零假設，那麼稱這個檢驗犯了第一類錯誤。反之，如果檢驗結果支援零假

機器學習模型評估混淆矩陣、ROC曲線和AUC以及PR曲線

在機器學習中，當我們基於某個業務建立模型並訓練後，接下來我們需要評判模型好壞的時候需要基於混淆矩陣，ROC和AUC等來進行輔助判斷。混淆矩陣也叫精度矩陣，是用來表示精度評價，為N *N的矩陣，用來判別分類好壞的指標。混淆矩陣中有以下幾個概念： TP(T

python Sklearn實現xgboost的二分類和多分類

二分類：train2.txt的格式如下：import numpy as np import pandas as pd import sklearn from sklearn.cross_validati

對混淆矩陣、F1-Score、ROC曲線、AUC和KS曲線的理解

（一）混淆矩陣混淆矩陣是除了ROC曲線和AUC之外的另一個判斷分類好壞程度的方法。下面給出二分類的混淆矩陣Predicted as PositivePredicted as NegativeLabeled as Positive True Positive(TP)Fals

python sklearn包——grid search筆記

Preface：演算法不夠好，需要除錯引數時必不可少。比如SVM的懲罰因子C，核函式kernel，gamma引數等，對於不同的資料使用不同的引數，結果效果可能差1-5個點，sklearn為我們提供專門除錯引數的函式grid_search。在sklearn中以API的形式給

ApolloStudio高手之路（8）：用Python呼叫.Net（C#、VB.Net等）開發的動態連結庫（DLL庫檔案）實現相互協作

ApolloStudio是基於.Net與Python雙架構下的實現，這樣的架構體系使得其具有傳統定製軟體無法比擬的超強拓展性，在本文中我們將介紹這兩者是如何在ApolloStudio平臺上實現優勢互補的。由於在ApolloStudio中使用的更易學習的Python作為主導指令碼語言，這裡我們將介

JAVA 多線程制作大球吃小球一、實現球的自動生成及運動生產消費模型

生產者 tar thread ive 聯系 print random 線程 ram /*文章中用到的代碼只是一部分，需要源碼的可通過郵箱聯系我 [email protected]*/ 前幾天用多線程實現了創建小球並移動，想到大魚吃小魚，便突發奇想要寫一個大球吃小球。首先第一

8、在MyEclipse中自動生成JUnit類

1、又是為了測試的方便，需要自動生成JUnit測試類 2、自動生成Junit測試類在類名上點右鍵 –> New –> Other 3、點Next後進入下圖，將要測試的方法鉤選中，Finish即行 4、如果第一次建測試類，它要求加入JUnit的jar

python sklearn包——混淆矩陣、分類報告等自動生成

相關推薦