sklearn評估模型的方法

阿新 • • 發佈：2018-12-07

一、acc、recall、F1、混淆矩陣、分類綜合報告

1、準確率

第一種方式：accuracy_score

# 準確率import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3,9,9,8,5,8]
y_true = [0, 1, 2, 3,2,6,3,5,9]

accuracy_score(y_true, y_pred)
Out[127]: 0.33333333333333331

accuracy_score(y_true, y_pred, normalize=False 
)  # 類似海明距離，每個類別求準確後，再求微平均
Out[128]: 3

第二種方式：metrics

巨集平均比微平均更合理，但也不是說微平均一無是處，具體使用哪種評測機制，還是要取決於資料集中樣本分佈

巨集平均（Macro-averaging），是先對每一個類統計指標值，然後在對所有類求算術平均值。
微平均（Micro-averaging），是對資料集中的每一個例項不分類別進行統計建立全域性混淆矩陣，然後計算相應指標。（來源：談談評價指標中的巨集平均和微平均）

from sklearn import metrics
metrics.precision_score(y_true, y_pred, average 
='micro')  # 微平均，精確率
Out[130]: 0.33333333333333331

metrics.precision_score(y_true, y_pred, average='macro')  # 巨集平均，精確率
Out[131]: 0.375

metrics.precision_score(y_true, y_pred, labels=[0, 1, 2, 3], average='macro')  # 指定特定分類標籤的精確率
Out[133]: 0.5

其中average引數有五種：(None, ‘micro’, ‘macro’, ‘weighted’, ‘samples’)
.

2、召回率

metrics.recall_score(y_true, y_pred, average='micro')
Out[134]: 0.33333333333333331

metrics.recall_score(y_true, y_pred, average='macro')
Out[135]: 0.3125

3、F1

metrics.f1_score(y_true, y_pred, average='weighted')  
Out[136]: 0.37037037037037035

4、混淆矩陣

# 混淆矩陣
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true, y_pred)

Out[137]: 
array([[1, 0, 0, ..., 0, 0, 0],
       [0, 0, 1, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 1],
       ..., 
       [0, 0, 0, ..., 0, 0, 1],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 1, 0]])

橫為true label 豎為predict
這裡寫圖片描述
.

5、分類報告

# 分類報告：precision/recall/fi-score/均值/分類個數from sklearn.metrics import classification_report
 y_true = [0, 1, 2, 2, 0]
 y_pred = [0, 0, 2, 2, 0]
 target_names = ['class 0', 'class 1', 'class 2']
 print(classification_report(y_true, y_pred, target_names=target_names))

其中的結果：

             precision    recall  f1-score   support

    class 0       0.67      1.00      0.80         2class 1       0.00      0.00      0.00         1class 2       1.00      1.00      1.00         2

avg / total       0.670.800.725

包含：precision/recall/fi-score/均值/分類個數
.

6、 kappa score

kappa score是一個介於(-1, 1)之間的數. score>0.8意味著好的分類；0或更低意味著不好（實際是隨機標籤）

 from sklearn.metrics import cohen_kappa_score
 y_true = [2, 0, 2, 2, 0, 1]
 y_pred = [0, 0, 2, 2, 0, 2]
 cohen_kappa_score(y_true, y_pred)

二、ROC

1、計算ROC值

import numpy as np
 from sklearn.metrics import roc_auc_score
 y_true = np.array([0, 0, 1, 1])
 y_scores = np.array([0.1, 0.4, 0.35, 0.8])
 roc_auc_score(y_true, y_scores)

2、ROC曲線

 y = np.array([1, 1, 2, 2])
 scores = np.array([0.1, 0.4, 0.35, 0.8])
 fpr, tpr, thresholds = roc_curve(y, scores, pos_label=2)

來看一個官網例子，貼部分程式碼，全部的code見：Receiver Operating Characteristic (ROC)

import numpy as np
import matplotlib.pyplot as plt
from itertools import cycle

from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier
from scipy import interp

# Import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 畫圖
all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)]))

# Then interpolate all ROC curves at this points
mean_tpr = np.zeros_like(all_fpr)
for i in range(n_classes):
    mean_tpr += interp(all_fpr, fpr[i], tpr[i])

# Finally average it and compute AUC
mean_tpr /= n_classes

fpr["macro"] = all_fpr
tpr["macro"] = mean_tpr
roc_auc["macro"] = auc(fpr["macro"], tpr["macro"])

# Plot all ROC curves
plt.figure()
plt.plot(fpr["micro"], tpr["micro"],
         label='micro-average ROC curve (area = {0:0.2f})'''.format(roc_auc["micro"]),
         color='deeppink', linestyle=':', linewidth=4)

plt.plot(fpr["macro"], tpr["macro"],
         label='macro-average ROC curve (area = {0:0.2f})'''.format(roc_auc["macro"]),
         color='navy', linestyle=':', linewidth=4)

colors = cycle(['aqua', 'darkorange', 'cornflowerblue'])
for i, color in zip(range(n_classes), colors):
    plt.plot(fpr[i], tpr[i], color=color, lw=lw,
             label='ROC curve of class {0} (area = {1:0.2f})'''.format(i, roc_auc[i]))

plt.plot([0, 1], [0, 1], 'k--', lw=lw)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Some extension of Receiver operating characteristic to multi-class')
plt.legend(loc="lower right")
plt.show()

這裡寫圖片描述

三、距離

1、海明距離

from sklearn.metrics import hamming_loss
 y_pred = [1, 2, 3, 4]
 y_true = [2, 2, 3, 4]
 hamming_loss(y_true, y_pred)
0.25

2、Jaccard距離

import numpy as np
 from sklearn.metrics import jaccard_similarity_score
 y_pred = [0, 2, 1, 3,4]
 y_true = [0, 1, 2, 3,4]
 jaccard_similarity_score(y_true, y_pred)
0.5
 jaccard_similarity_score(y_true, y_pred, normalize=False)
2

四、迴歸

1、可釋方差值（Explained variance score）

 from sklearn.metrics import explained_variance_score
y_true = [3, -0.5, 2, 7]
 y_pred = [2.5, 0.0, 2, 8]
 explained_variance_score(y_true, y_pred)

2、平均絕對誤差（Mean absolute error）

from sklearn.metrics import mean_absolute_error
 y_true = [3, -0.5, 2, 7]
 y_pred = [2.5, 0.0, 2, 8]
 mean_absolute_error(y_true, y_pred)

3、均方誤差（Mean squared error）

 from sklearn.metrics import mean_squared_error
 y_true = [3, -0.5, 2, 7]
 y_pred = [2.5, 0.0, 2, 8]
 mean_squared_error(y_true, y_pred)

 from sklearn.metrics import median_absolute_error
 y_true = [3, -0.5, 2, 7]
 y_pred = [2.5, 0.0, 2, 8]
 median_absolute_error(y_true, y_pred)

5、 R方值，確定係數

 from sklearn.metrics import r2_score
 y_true = [3, -0.5, 2, 7]
 y_pred = [2.5, 0.0, 2, 8]
 r2_score(y_true, y_pred)

sklearn評估模型的方法

一、acc、recall、F1、混淆矩陣、分類綜合報告 1、準確率第一種方式：accuracy_score # 準確率import numpy as np from sklearn.metrics import accuracy_score y_pred = [

模型的性能評估(二) 用sklearn進行模型評估

ant body 指定 cross 學習 median 技術分享依賴是把在sklearn當中，可以在三個地方進行模型的評估 1：各個模型的均有提供的score方法來進行評估。這種方法對於每一種學習器來說都是根據學習器本身的特點定制的，不可改變，這種方法比較簡單。這

sklearn之模型評估指標總結歸納

文章目錄機器學習模型評估分類模型迴歸模型聚類模型交叉驗證中指定scoring引數網格搜尋中應用機器學習模型評估以下方法，sklearn中都在

sklearn 中模型儲存的兩種方法

一、 sklearn中提供了高效的模型持久化模組joblib，將模型儲存至硬碟。 from sklearn.externals import joblib #lr是一個LogisticRegression模型 joblib.dump(lr, 'lr.model') lr = joblib.load('

機器學習實戰系列：sklearn 中模型儲存的兩種方法

一、 sklearn中提供了高效的模型持久化模組joblib，將模型儲存至硬碟。 from sklearn.externals import joblib #lr是一個LogisticRegression模型 joblib.dump(lr, 'lr.model') lr =

python實現sklearn的基本操作流程，sklearn預處理方法，sklearn基礎演算法的使用，以及sklearn模型的選擇方法。

一、資料的獲取與分析 1.讀取資料本文使用pandas的read_csv方法讀取資料，常用的的方法還有，如pandas.read_sql_query(),pandas.read_excel()等。 import pandas as pd #讀取資料 data

機器學習-淺談模型評估的方法和指標

以處理流程為骨架來學習方便依照框架的充實細節又不失概要(參考下圖機器學習處理流程的一個例項<<Python資料分析與挖掘實戰>>),今天就充實一下模型評估(模型評價)的部分吧. 圖-1-機器學習處理流程例項本"故事"以<<Py

Sklearn之模型評估

假如我們有一個帶標籤的資料集D，我們如何選擇最優的模型？衡量模型好壞的標準是看這個模型在新的資料集上面表現的如何，也就是看它的泛化誤差。因為實際的資料沒有標籤，所以泛化誤差是不可能直接得到的。於是我們需要在資料集D上面劃分出來一小部分資料測試D的效能，用它來近似代替泛化誤差。留出法

CARTA：Gartner的持續自適應風險與信任評估戰略方法簡介

gartner carta 自適應在2017年6月份舉辦的第23屆Gartner安全與風險管理峰會開幕式上，來自Gartner的三位VP級別的分析師（Ahlm, Krikken and Neil McDonald）分享一個題為《Manage Risk ,Build Trust, and Embr

django模型方法extra

author fragments ret || book def none been 查詢 ## select提供簡單數據 # SELECT age, (age > 18) as is_adult FROM myapp_person; Person.objects.

laravel 數據模型方法

each fse distinct bsp mod date HERE select() ins Model::insert(array) Model::insertGetId(array) $ob $ob->save foreach($arr as $k=-&g

sklearn 集成方法簡單示例

集成 sklearn png info mage http learn img 方法 sklearn 集成方法簡單示例

R_Studio(cart演算法決策樹)對book3.csv資料用測試集進行測試並評估模型

對book3.csv資料集，實現如下功能：　　（1）建立訓練集、測試集　　（2）用rpart包建立關於類別的cart演算法的決策樹　　（3）用測試集進行測試，並評估模型　　book3.csv資料集 se

用來評估模型好壞的方差和偏差的概念及區別對比

一、基本概念上的對比解釋 1、偏差Bias：描述的是預測值（估計值）的期望與真實值之間的差距。偏差越大，越偏離真實資料，物件是單個模型。 2、方差Variance：描述的是預測值的變化範圍，離散程度，也就是離其期望值的距離。方差越大，資料的分佈越分散，物件是多個模型在忽略噪聲的

使用sklearn中的方法進行資料劃分

train_test_split的引數 test_size : float, int, None, optional If float, should be between 0.0 and 1.0 and represent the proportion &

Keras之DNN：利用DNN演算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病資料集訓練、評估模型(利用糖尿病資料集中的八個引數特徵預測一個0或1結果)

Keras之DNN：利用DNN演算法【Input(8)→12+8(relu)→O(sigmoid)】利用糖尿病資料集訓練、評估模型(利用糖尿病資料集中的八個引數特徵預測一個0或1結果) 輸出結果設計思路實現程式碼 1、 2、

機器學習實踐（十六）—sklearn之模型儲存和載入

一、sklearn - 模型的儲存和載入 - API from sklearn.externals import joblib 儲存 joblib.dump(rf, ‘test.pkl’) 載入 estimator

python sklearn svm模型的儲存與載入呼叫

對於機器學習的一些模型，跑完之後，如果下一次測試又需要重新跑一遍模型是一件很繁瑣的事，這時候我們就需要儲存模型，再載入呼叫。樓主發現有這些儲存模型的方法，網上有很多錯誤的例子，所以給大家在整理一下。(python3) 1.利用pickle import pickle

SKlearn迴歸模型調包練習

摘自一隻鹹狗https://blog.csdn.net/u013982164/article/details/80364500 看了錄播後照著程式碼敲了一遍 sklearn常用分類迴歸演算法簡介對能瞭解SKlearn常

機器學習使用sklearn進行模型訓練、預測和評價

cross_val_score(model_name, x_samples, y_labels， cv=k) 作用：驗證某個模型在某個訓練集上的穩定性，輸出k個預測精度。 K折交叉驗證（k-fold）把初始訓練樣本分成k份，其中（k-1）份被用作訓練集，剩下一份被用作評估集，這樣一共可以對分類器做k次

sklearn評估模型的方法

一、acc、recall、F1、混淆矩陣、分類綜合報告

1、準確率

第一種方式：accuracy_score

第二種方式：metrics

2、召回率

3、F1

4、混淆矩陣

5、 分類報告

6、 kappa score

二、ROC

1、計算ROC值

2、ROC曲線

三、距離

1、海明距離

2、Jaccard距離

四、迴歸

1、 可釋方差值（Explained variance score）

2、 平均絕對誤差（Mean absolute error）

3、 均方誤差（Mean squared error）

5、 R方值，確定係數

相關推薦

5、分類報告

1、可釋方差值（Explained variance score）

2、平均絕對誤差（Mean absolute error）

3、均方誤差（Mean squared error）