python sklearn包——混淆矩陣、分類報告等自動生成方式

阿新 • • 發佈：2020-02-29

preface：做著最近的任務，對資料處理，做些簡單的提特徵，用機器學習演算法跑下程式得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函式，故將自己常用函式記錄上。應該說這些函式基本上都會用到，像是資料預處理，處理完了後特徵提取、降維、訓練預測、通過混淆矩陣看分類效果，得出報告。

1.輸入

從資料集開始，提取特徵轉化為有標籤的資料集，轉為向量。拆分成訓練集和測試集，這裡不多講，在上一篇部落格中談到用StratifiedKFold()函式即可。在訓練集中有data和target開始。

2.處理

def my_preprocessing(train_data):
  from sklearn import preprocessing
  X_normalized = preprocessing.normalize(train_data,norm = "l2",axis=0)#使用l2正規化，對特徵列進行正則
  return X_normalized
 
def my_feature_selection(data,target):
  from sklearn.feature_selection import SelectKBest
  from sklearn.feature_selection import chi2
  data_new = SelectKBest(chi2,k= 50).fit_transform(data,target)
  return data_new
 
def my_PCA(data):#data without target,just train data,withou train target.
  from sklearn import decomposition
  pca_sklearn = decomposition.PCA()
  pca_sklearn.fit(data)
  main_var = pca_sklearn.explained_variance_
  print sum(main_var)*0.9
  import matplotlib.pyplot as plt
  n = 15
  plt.plot(main_var[:n])
  plt.show()
 
def clf_train(data,target):
  from sklearn import svm
  #from sklearn.linear_model import LogisticRegression
  clf = svm.SVC(C=100,kernel="rbf",gamma=0.001)
  clf.fit(data,target)
 
  #clf_LR = LogisticRegression()
  #clf_LR.fit(x_train,y_train)
  #y_pred_LR = clf_LR.predict(x_test)
  return clf
 
def my_confusion_matrix(y_true,y_pred):
  from sklearn.metrics import confusion_matrix
  labels = list(set(y_true))
  conf_mat = confusion_matrix(y_true,y_pred,labels = labels)
  print "confusion_matrix(left labels: y_true,up labels: y_pred):"
  print "labels\t",for i in range(len(labels)):
    print labels[i],"\t",print 
  for i in range(len(conf_mat)):
    print i,for j in range(len(conf_mat[i])):
      print conf_mat[i][j],'\t',print 
  print 
 
def my_classification_report(y_true,y_pred):
  from sklearn.metrics import classification_report
  print "classification_report(left: labels):"
  print classification_report(y_true,y_pred)

my_preprocess()函式：

主要使用sklearn的preprocessing函式中的normalize()函式，預設引數為l2正規化，對特徵列進行正則處理。即每一個樣例，處理標籤，每行的平方和為1.

my_feature_selection()函式：

使用sklearn的feature_selection函式中SelectKBest()函式和chi2()函式，若是用詞袋提取了很多維的稀疏特徵，有必要使用卡方選取前k個有效的特徵。

my_PCA()函式：

主要用來觀察前多少個特徵是主要特徵，並且畫圖。看看前多少個特徵佔據主要部分。

clf_train()函式：

可用多種機器學習演算法，如SVM,LR,RF,GBDT等等很多，其中像SVM需要調引數的，有專門除錯引數的函式如StratifiedKFold()（見前幾篇部落格）。以達到最優。

my_confusion_matrix()函式：

主要是針對預測出來的結果，和原來的結果對比，算出混淆矩陣，不必自己計算。其對每個類別的混淆矩陣都計算出來了，並且labels引數預設是排序了的。

my_classification_report()函式：

主要通過sklearn.metrics函式中的classification_report()函式，針對每個類別給出詳細的準確率、召回率和F-值這三個引數和巨集平均值，用來評價演算法好壞。另外ROC曲線的話，需要是對二分類才可以。多類別似乎不行。

主要參考sklearn官網

補充拓展：[sklearn] 混淆矩陣——多分類預測結果統計

呼叫的函式：confusion_matrix(typeTrue,typePred)

typeTrue：實際類別，list型別

typePred：預測類別，list型別

結果如下面的截圖：

第i行：實際為第i類，預測到各個類的樣本數

第j列：預測為第j類，實際為各個類的樣本數

true↓ predict→

python sklearn包——混淆矩陣、分類報告等自動生成方式

以上這篇python sklearn包——混淆矩陣、分類報告等自動生成方式就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

python sklearn包——混淆矩陣、分類報告等自動生成方式

python sklearn包——混淆矩陣、分類報告等自動生成方式

邏輯迴歸4-分類評估方法、混淆矩陣、精確率、召回率、roc曲線、auc指標

混淆矩陣、準確率、召回率、ROC曲線、AUC

混淆矩陣、精度、召回率、ROC、AUC

將python依賴包打包成window下可執行檔案bat方式

華為花瓣翻譯官應用上架華為應用市場：支援語音、文字、智慧識別等多種翻譯方式

百度 CarLife + 三星定製版即將上線：新增無線、藍芽等多種連線方式

分類模型評價，準確率、召回率，混淆矩陣

拓端tecdat：Python整合學習：自己編寫構建AdaBoost分類模型視覺化決策邊界及sklearn包呼叫比較

python sklearn常用分類演算法模型的呼叫

Python sklearn庫實現PCA教程(以鳶尾花分類為例)

python閉包、深淺拷貝、垃圾回收、with語句知識點彙總

利用python中的matplotlib列印混淆矩陣例項

一文搞懂Python函式（匿名函式、巢狀函式、閉包、裝飾器）！

python-閉包函式、裝飾器、迭代器、生成器

MATLAB實現多分類預測混淆矩陣（Confusion matrix）視覺化

Python函式的作用域、閉包函式

[Python]編碼規範性（五）——命名（包和模組、類、函式）

python單元測試框架（繼承、unittest引數化、斷言、測試報告）

python 表情包下載器，輕鬆下載上萬個表情包、鬥圖不用愁

python sklearn包——混淆矩陣、分類報告等自動生成方式

相關推薦