分類模型的評價指標

阿新 • • 發佈：2020-07-28

分類模型的評價指標

問題：如何評判兩部手機的好壞？
- 1.根據效能評價
- 2.根據外觀評價
- 3.根據價格評價
分析：如果對一個事物進行好壞的評價，首先我們一定是在指定場景下，使用符合該場景相關的評價標準對其進行好壞的評價！那麼歸於分類模型的評價有如下幾種方式：
- 準確率
- 精準率
- 召回率
- f1-Score
- auc曲線（只能用於二分類模型的評價）
在介紹每種評價指標之前，首先我們來看一個叫做混淆矩陣的東西：

混淆矩陣

概念：在分類任務下，預測結果（Predict Condition）和真實結果（True Condition）之間存在的四種不同的組合。適用於二分類和多分類
例子：設計一個二分類的場景，將圖片分類為貓或者狗。則：
- 真正例（TP）：本來是貓結果預測值為貓的比例（預測為正例是真的）
- 偽正例（FP）：本來不是貓結果預測值為貓的比例（預測為正例是假的）
- 偽反例（FN）：本來是貓結果預測值為不是貓的比例（預測為反例是假的）
- 真反例（TN）：本來不是貓結果預測值為不是貓的比例（預測為反例是真的）
  - 真正例率TPR = TP / (TP + FN)
    - 預測為正例且實際為正例的樣本佔所有訓練集中為正例樣本的比例。
    - 將正例預測對的佔正樣本的比例（預測對的比例），這個比例越大越好
  - 偽反例率FPR = FP / (FP + TN)
    - 預測為正例但實際為負例的樣本佔訓練集中所有負例樣本的比例
    - 將負例預測錯的佔負樣本的比例（預測錯的比例），這個比例越小越好
      - 注意：如果有其他的類別，其他的每一個類別也有其對應的混淆矩陣表示真偽正例和真偽反例的比例

準確率

Accuracy = (TP+TN)/(TP+FN+FP+TN)
- 解釋：(預測正確)/(預測對的和不對的所有結果)，簡而言之就是預測正確的比例。
- 模型.score()方法返回的就是模型的準確率

召回率（較多被使用）

Recal = TP/(TP+FN)
- 解釋：真正為正例的樣本中預測結果為正例的比例。正樣本有多少被找出來了（召回了多少）
- 例子：醫院預測一個病人是否患有癌症。假設有100個測試樣本（10個癌症患者，90個非癌症患者），最終預測結果為6個癌症患者，94個非癌症患者。召回率就是在10癌症患者中預測正確多少個，或者說在癌症患者中預測出癌症患者的比例（預測出的癌症患者/所有癌症患者（預測正確的+預測錯誤的））。
- 使用場景：
  - 是否患癌症
  - 產品是否為殘次品
API:recall_score

精確率

Precision = TP/(TP+FP)
- 解釋：預測結果為正例樣本（TP+FP）中真實值為正例（TP）的比例。
  - 本來是貓預測也為貓 /（本來是貓預測也為貓+本來不是貓預測為貓）
API:accuracy_score

f1-score：精確率和召回率的調和平均數

有時候我們需要綜合精確率和召回率的指標，則需要使用f1-score
模型的精確率和召回率是有矛盾的，而F1分數（F1-score）是分類問題的一個衡量指標。一些多分類問題的機器學習競賽，常常將F1-score作為最終測評的方法。它是精確率和召回率的調和平均數，最大為1，最小為0。
反應了模型的穩健性
它是精確率和召回率的調和平均數
是一個綜合的評判標準
API：f1_score

AUC

AUC是一個模型評價指標，只能用於二分類模型的評價。該評價指標通常應用的比較多！
- 應用的比較多是原因是因為很多的機器學習的分類模型計算結果都是概率的形式（比如邏輯迴歸），那麼對於概率而言，我們就需要去設定一個閾值來判定分類，那麼這個閾值的設定就會對我們的正確率和準確率造成一定成都的影響。
  - 邏輯迴歸的預設閾值為0.5

AUC(Area under Curve)，表面上意思是曲線下邊的面積，這麼這條曲線是什麼？

ROC曲線（receiver operating characteristic curve，接收者操作特徵曲線）

真正例率TPR = TP / (TP + FN)

  - 預測為正例且實際為正例的樣本佔所有訓練集中為正例樣本的比例。
  - 將正例預測對的佔正樣本的比例（預測對的比例），這個比例越大越好

偽反例率FPR = FP / (FP + TN)

  - 預測為正例但實際為負例的樣本佔訓練集中所有負例樣本的比例
  - 將負例預測錯的佔負樣本的比例（預測錯的比例），這個比例越小越好

在理想情況下，最佳的分類器應該儘可能地處於左上角，這就意味著分類器在偽反例率（預測錯的概率）很低的同時獲得了很高的真正例率（預測對的概率）。也就是說ROC曲線圍起來的面積越大越好，因為ROC曲線面積越大，則曲線上面的面積越小，則分類器越能停留在ROC曲線的左上角。
- AUC的的取值是固定在0-1之間。AUC的值越大越好。

AUC的API
- from sklearn.metrics import roc_auc_score
- y_pre = predict_proba(x_test)返回預測的概率
- auc=roc_auc_score(y_test,y_pre[:,1])

from sklearn.metrics import roc_auc_score,f1_score,recall_score,accuracy_score
import sklearn.datasets as dt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression


iris = dt.load_iris()
feature = iris.data
target = iris.target

x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)

l = LogisticRegression()
l.fit(x_train,y_train)

l.score(x_test,y_test)  #0.8666666666666667

y_pred = l.predict(x_test)

recall_score(y_test,y_pred,average='macro')  #0.8666666666666667

accuracy_score(y_test,y_pred)  #0.8666666666666667

f1_score(y_test,y_pred,average='macro')  #0.8666666666666668

淺談keras中自定義二分類任務評價指標metrics的方法以及程式碼

對於二分類任務，keras現有的評價指標只有binary_accuracy，即二分類準確率，但是評估模型的效能有時需要一些其他的評價指標，例如精確率，召回率，F1-score等等，因此需要使用keras提供的自定義評價函式功能構建出針

關於NLP多分類任務評價指標的總結

點選這裡檢視sklearn官方文件 sklearn.metrics模組實現了幾個損失、得分和效用函式來衡量分類效能

分類模型評價，準確率、召回率，混淆矩陣

技術標籤：深度學習深度學習演算法python 目錄 1、混淆矩陣 2、指標計算 2.1、準確率 accuracy

模型評價指標【AUC原理、roc曲線等】

分類模型評估：指標描述 Scikit-learn函式 Precision AUC from sklearn.metrics import precision_score

關於Precision，Recall，ROC曲線，KS，Lift等模型評價指標的介紹

1.Precision, Recall 準確率 \\(Accuracy = \\frac{TP+TN}{TP+TN+FP+FN}\\) 精確率（或命中率） \\(Precision = \\frac{TP}{TP+FP}\\)，預測為positive中，實際為positive的比例，反映分類器的準確性

機器學習中常用的模型評價指標

本文介紹一些模型中常用的評價模型準確性的指標參考： Various ways to evaluate a machine learning model’s performance

7-機器學習-分類模型的評價指標

總結準確率精準率召回率 f1-Score auc曲線分類模型的評價指標問題：如何評判兩部手機的好壞？

分類模型的評價指標

分類模型的評價指標問題：如何評判兩部手機的好壞？ 1.根據效能評價 2.根據外觀評價

python實現多分類評價指標

1、什麼是多分類？參考：https://www.jianshu.com/p/9332fcfbd197 針對多類問題的分類中，具體講有兩種，即multiclass classification和multilabel classification。multiclass是指分類任務中包含不止一個類別時，

【目標檢測】 IterDet模型簡介、TIDE評價指標介紹

來源 | 極鏈AI雲（價效比最高的共享GPU算力平臺，雙十活動進行中 10.9-10.11，新人註冊可領取198元大禮包，價值100小時的免費使用時長，領取地址：https://cloud.videojj.com/）

多分類問題的評價指標

對於二分類問題，precision，recall，auc，f1_score的計算原理都比較熟悉，但是多分類問題的計算還是有一點小小的區別，在使用sklearn.metrics的時候需要注意一下；

分類評價指標

1.概念二分類：一個目標的標籤只有兩種之一（例如：0或1，對應的one-hot標籤為[1,0]或[0,1]）。對於這種問題，一般可以採用softmax或者logistic迴歸來完成，分別採用cross-entropy和mse損失函式來進行網路訓練，分

分類問題中評價指標

基本概念 TP、True Positive 真陽性：預測為正，實際為正 FP、False Positive 假陽性：預測為正，實際為負

[AI]-模型測試和評價指標

模型測試 import cv2 from torchvision import transforms, datasets, models from torch.utils.data importDataLoader

Python 線性迴歸分析以及評價指標詳解

廢話不多說，直接上程式碼吧！ \"\"\" # 利用 diabetes資料集來學習線性迴歸 # diabetes 是一個關於糖尿病的資料集，該資料集包括442個病人的生理資料及一年以後的病情發展情況。

Python實現Keras搭建神經網路訓練分類模型教程

我就廢話不多說了，大家還是直接看程式碼吧~ 註釋講解版： # Classifier example import numpy as np

【Model Log】模型評估指標視覺化，自動畫Loss、Accuracy曲線圖工具，無需人工參與!

1. Model Log 介紹 Model Log 是一款基於 Python3 的輕量級機器學習(Machine Learning)、深度學習(Deep Learning)模型訓練評估指標視覺化工具，與 TensorFlow、Pytorch、PaddlePaddle結合使用，可以記錄模型訓練過程

keras分類模型中的輸入資料與標籤的維度例項

在《python深度學習》這本書中。一、21頁mnist十分類匯入資料集 from keras.datasets import mnist

使用Flask部署影象分類模型

作者|LAKSHAY ARORA 編譯|VK 來源|Analytics Vidhya 概述瞭解PyTorch和Flask的概況學習在PyTorch中建立影象分類模型

2-機器學習-KNN近鄰演算法分類模型、交叉驗證

KNN分類模型分類：將一個未知歸類的樣本歸屬到某一個已知的類群中預測：可以根據資料的規律計算出一個未知的資料

分類模型的評價指標