關於NLP多分類任務評價指標的總結

阿新 • • 發佈：2020-09-12

點選這裡檢視sklearn官方文件

sklearn.metrics模組實現了幾個損失、得分和效用函式來衡量分類效能

1、四個基本概念

TP、True Positive 真陽性：預測為正，實際為正

FP、False Positive 假陽性：預測為正，實際為負

FN、False Negative 假陰性：預測為負、實際為正

TN、True Negative 真陰性：預測為負、實際為負

2、二分類指標

3、多分類指標

....

F1-score：

是統計學中用來衡量二分類模型精確度的一種指標，用於測量不均衡資料的精度。它同時兼顧了分類模型的精確率和召回率。F1-score可以看作是模型精確率和召回率的一種加權平均，它的最大值是1，最小值是0。

在多分類問題中，如果要計算模型的F1-score，則有兩種計算方式，分別為micro-F1和macro-F1，這兩種計算方式在二分類中與F1-score的計算方式一樣，所以在二分類問題中，計算micro-F1=macro-F1=F1-score，micro-F1和macro-F1都是多分類F1-score的兩種計算方式；

micro-F1：

計算方法：先計算所有類別的總的Precision和Recall，然後計算出來的F1值即為micro-F1；
取值範圍：(0, 1)；
適用環境：在計算公式中考慮到了每個類別的數量,多分類不平衡，若資料極度不平衡會影響結果；

marco-F1：

計算方法：

將所有類別的Precision和Recall求平均，然後計算F1值作為macro-F1;
取值範圍：(0, 1)；
適用環境：多分類問題，沒有考慮到資料的數量，所以會平等的看待每一類,不受資料不平衡影響，容易受到識別性高（高recall、高precision）的類別影響；

#指標測試
from sklearn import metrics
from sklearn.metrics import accuracy_score, precision_score, recall_score
from sklearn.metrics import f1_score
def Evaluate1(y_test,y_predic):
     
print('accuracy:', metrics.accuracy_score(y_test, y_predict)) #預測準確率輸出
    print('macro_precision:',metrics.precision_score(y_test,y_predict,average='macro')) #預測巨集平均精確率輸出
    print('micro_precision:', metrics.precision_score(y_test, y_predict, average='micro')) #預測微平均精確率輸出
    # print('weighted_precision:', metrics.precision_score(y_test, y_predict, average='weighted')) #預測加權平均精確率輸出
    print('macro_recall:',metrics.recall_score(y_test,y_predict,average='macro'))#預測巨集平均召回率輸出
    print('micro_recall:',metrics.recall_score(y_test,y_predict,average='micro'))#預測微平均召回率輸出
    # print('weighted_recall:',metrics.recall_score(y_test,y_predict,average='weighted'))#預測加權平均召回率輸出
    print('macro_f1:',metrics.f1_score(y_test,y_predict,labels=[0,1,2,3,4,5,6],average='macro'))#預測巨集平均f1-score輸出
    print('micro_f1:',metrics.f1_score(y_test,y_predict,labels=[0,1,2,3,4,5,6,7],average='micro'))#預測微平均f1-score輸出
    # print('weighted_f1:',metrics.f1_score(y_test,y_predict,labels=[0,1,2,3,4,5,6],average='weighted'))#預測加權平均f1-score輸出
    #target_names = ['class 1', 'class 2', 'class 3','class 4','class 5','class 6','class 7']
    # print('混淆矩陣輸出:\n',metrics.confusion_matrix(y_test,y_predict,labels=[0,1,2,3,4,5,6]))#混淆矩陣輸出 #比如[1,3]為2，即1類預測為3類的個數為2
    # print('分類報告:\n', metrics.classification_report(y_test, y_predict,labels=[0,1,2,3,4,5,6]))#分類報告輸出 ,target_names=target_names
def Evaluate2(y_true,y_pred):
    print("accuracy:", accuracy_score(y_true, y_pred))  # Return the number of correctly classified samples
    print("macro_precision", precision_score(y_true, y_pred, average='macro'))
    print("micro_precision", precision_score(y_true, y_pred, average='micro'))
    # Calculate recall score
    print("macro_recall", recall_score(y_true, y_pred, average='macro'))
    print("micro_recall", recall_score(y_true, y_pred, average='micro'))
    # Calculate f1 score
    print("macro_f", f1_score(y_true, y_pred, average='macro'))
    print("micro_f", f1_score(y_true, y_pred, average='micro'))

y_test    = [1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4,5,5,6,6,6,0,0,0,0]
y_predict = [1, 1, 1, 3, 3, 2, 2, 3, 3, 3, 4, 3, 4, 3,5,1,3,6,6,1,1,0,6]
Evaluate1(y_test,y_predict)
Evaluate2(y_test,y_predict)

##其中列表左邊的一列為分類的標籤名，右邊support列為每個標籤的出現次數．avg / total行為各列的均值（support列為總和）．
##precision recall f1-score三列分別為各個類別的精確度/召回率及 F1值
'''
accuracy: 0.5217391304347826
macro_precision: 0.7023809523809524
micro_precision: 0.5217391304347826
macro_recall: 0.5261904761904762
micro_recall: 0.5217391304347826
macro_f1: 0.5441558441558441
micro_f1: 0.5217391304347826

accuracy: 0.5217391304347826
macro_precision 0.7023809523809524
micro_precision 0.5217391304347826
macro_recall 0.5261904761904762
micro_recall 0.5217391304347826
macro_f 0.5441558441558441
micro_f 0.5217391304347826
'''

參考：

https://blog.csdn.net/lyb3b3b/article/details/84819931

https://blog.csdn.net/qq_43190189/article/details/105778058

關於NLP多分類任務評價指標的總結

點選這裡檢視sklearn官方文件 sklearn.metrics模組實現了幾個損失、得分和效用函式來衡量分類效能

淺談keras中自定義二分類任務評價指標metrics的方法以及程式碼

對於二分類任務，keras現有的評價指標只有binary_accuracy，即二分類準確率，但是評估模型的效能有時需要一些其他的評價指標，例如精確率，召回率，F1-score等等，因此需要使用keras提供的自定義評價函式功能構建出針

多分類任務中不同隱藏層層數對實驗結果的影響

1 匯入實驗所需要的包 import torch import torch.nn as nn import numpy as np import torchvision import torchvision.transforms as transforms

多分類任務中不同隱藏單元個數對實驗結果的影響

1 匯入實驗所需要的包 import torch import torch.nn as nn import numpy as np import torchvision import torchvision.transforms as transforms

利用 torch.nn 實現前饋神經網路解決多分類任務

1 匯入實驗需要的包 import torch import numpy as np from torch import nn from torchvision.datasets import MNIST

多分類任務中不同隱藏層層數對實驗結果的影響（使用GPU）

1 匯入包 import torch import torch.nn as nn import numpy as np import torchvision import torchvision.transforms as transforms

使用sklearn對多分類的每個類別進行指標評價操作

今天晚上，筆者接到客戶的一個需要，那就是：對多分類結果的每個類別進行指標評價，也就是需要輸出每個型別的精確率（precision），召回率（recall）以及F1值（F1-score）。

python實現多分類評價指標

1、什麼是多分類？參考：https://www.jianshu.com/p/9332fcfbd197 針對多類問題的分類中，具體講有兩種，即multiclass classification和multilabel classification。multiclass是指分類任務中包含不止一個類別時，

多分類問題的評價指標

對於二分類問題，precision，recall，auc，f1_score的計算原理都比較熟悉，但是多分類問題的計算還是有一點小小的區別，在使用sklearn.metrics的時候需要注意一下；

7-機器學習-分類模型的評價指標

總結準確率精準率召回率 f1-Score auc曲線分類模型的評價指標問題：如何評判兩部手機的好壞？

分類模型的評價指標

分類模型的評價指標問題：如何評判兩部手機的好壞？ 1.根據效能評價 2.根據外觀評價

【雲音樂】從手遊APP到雲音樂視訊標籤分類，時隔3個月再次面對多標籤任務，終於摸索出了一些小經驗。附自定義評估函式程式碼

技術標籤：深度學習機器學習python資料探勘【雲音樂】從手遊APP到雲音樂視訊標籤分類，時隔3個月再次面對多標籤任務，終於摸索出了一些小經驗。

分類評價指標

1.概念二分類：一個目標的標籤只有兩種之一（例如：0或1，對應的one-hot標籤為[1,0]或[0,1]）。對於這種問題，一般可以採用softmax或者logistic迴歸來完成，分別採用cross-entropy和mse損失函式來進行網路訓練，分

分類問題中評價指標

基本概念 TP、True Positive 真陽性：預測為正，實際為正 FP、False Positive 假陽性：預測為正，實際為負

不拆分單詞也可以做 NLP，哈工大最新模型在多項任務中打敗 BERT，還能直接訓練中文

眾所周知，BERT 在預訓練時會對某些單詞進行拆分（術語叫做“WordPiece”）。比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。目的是縮減詞表、加快訓練速度，但這樣一來，在某些時

Python 線性迴歸分析以及評價指標詳解

廢話不多說，直接上程式碼吧！ \"\"\" # 利用 diabetes資料集來學習線性迴歸 # diabetes 是一個關於糖尿病的資料集，該資料集包括442個病人的生理資料及一年以後的病情發展情況。

Keras中的多分類損失函式用法categorical_crossentropy

from keras.utils.np_utils import to_categorical 注意：當使用categorical_crossentropy損失函式時，你的標籤應為多類模式，例如如果你有10個類別，每一個樣本的標籤應該是一個10維的向量，該向量在對應有值的索

python實現二分類和多分類的ROC曲線教程

基本概念 precision：預測為對的當中，原本為對的比例（越大越好，1為理想狀態）

PyTorch: Softmax多分類實戰操作

多分類一種比較常用的做法是在最後一層加softmax歸一化，值最大的維度所對應的位置則作為該樣本對應的類。本文采用PyTorch框架，選用經典影象資料集mnist學習一波多分類。

XGBoost文字多分類記錄

1.資料預處理　　xgb 訓練的資料是 DataFream 不能是List 讀取資料　　　　利用pandas 讀取資料,這裡讀取的是excel資料

關於NLP多分類任務評價指標的總結

1、四個基本概念

2、二分類指標

3、多分類指標

參考：

相關推薦