1. 程式人生 > >【總結】分類、聚類的評估指標

【總結】分類、聚類的評估指標

1. 分類問題評價指標

1-1. 精確率與召回率

精確率(Precision)指的是模型判為正的所有樣本中有多少是真正的正樣本;召回率(Recall)指的是所有正樣本有多少被模型判為正樣本,即召回。感覺精確率是個區域性的,召回率是個全域性的。


精確率與召回率

1-2. ROC

真正類率(true positive rate ,TPR),刻畫的是分類器所識別出的 正例項佔所有正例項的比例(正樣本預測結果數 / 正樣本實際數)。負正類率(false positive rate, FPR),計算的是分類器錯認為正類的負例項佔所有負例項的比例(被預測為正的負樣本結果數 /負樣本實際數)。

( TPR=0,FPR=0 ) 把每個例項都預測為負類的模型
( TPR=1,FPR=1 ) 把每個例項都預測為正類的模型
( TPR=1,FPR=0 ) 理想模型


ROC曲線

ROC曲線下方的面積(Area Under the ROC Curve, AUC)提供了評價模型平均效能的另一種方法。如果模型是完美的,那麼它的AUC = 1,如果模型是個簡單的隨機猜測模型,那麼它的AUC = 0.5,如果一個模型好於另一個,則它的曲線下方面積相對較大

首先AUC值是一個概率值,當你隨機挑選一個正樣本以及一個負樣本,當前的分類演算法根據計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值。當然,AUC值越大,當前的分類演算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。

1-3. 對數損失

對數損失(Log loss)亦被稱為邏輯迴歸損失(Logistic regression loss)


對數損失通用式
二分類對數損失

1-4. 鉸鏈損失

鉸鏈損失(Hinge loss)一般用來使“邊緣最大化”(maximal margin)。
鉸鏈損失最開始出現在二分類問題中,假設正樣本被標記為1,負樣本被標記為-1,y是真實值,w是預測值,則鉸鏈損失定義為:


鉸鏈損失

1-5. 混淆矩陣

又被稱為錯誤矩陣,通過它可以直觀地觀察到演算法的效果。它的每一列是樣本的預測分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結果的混淆程度。混淆矩陣i行j列的原始是原本是類別i卻被分為類別j的樣本個數,計算完之後還可以對之進行視覺化:


混淆矩陣

1-6. kappa係數

kappa係數用來衡量兩種標註結果的吻合程度,標註指的是把N個樣本標註為C個互斥類別。計算公式為


kappa係數

兩種標註結果完全相符時,K=1,越不相符其值越小,甚至是負的

1-7. 海明距離

  • 在資訊領域,兩個長度相等的字串的海明距離是在相同位置上不同的字元的個數,也就是將一個字串替換成另一個字串需要的替換的次數。

  • 機器學習方面,當預測結果與實際情況完全相符時,距離為0;當預測結果與實際情況完全不符時,距離為1;當預測結果是實際情況的真子集或真超集時,距離介於0到1之間。我們可以通過對所有樣本的預測情況求平均得到演算法在測試集上的總體表現情況

1-8. Jaccard係數

可將 Jaccard相似係數用在衡量樣本的相似度上。


Jaccard相似係數


這裡p+q+r可理解為A與B的並集的元素個數,而p是A與B的交集的元素個數。

2. 擬合問題評價指標

2-1. 平均絕對誤差

平均絕對誤差MAE(Mean Absolute Error)又被稱為l1範數損失(l1-norm loss):


平均絕對誤差MAE

2-2. 平均平方誤差

平均平方誤差MSE(Mean Squared Error)又被稱為l2範數損失(l2-norm loss):


平均平方誤差MSE

2-3. 解釋變異

解釋變異( Explained variance)是根據誤差的方差計算得到的:


解釋變異( Explained variance)


當需要比較兩組資料離散程度大小的時候,如果兩組資料的測量尺度相差太大,或者資料量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,而變異係數可以做到這一點,他是原始資料標準差與原始資料平均數的比。

事實上,可以認為變異係數和極差、標準差和方差一樣,都是反映資料離散程度的絕對值。一般來說,變數值平均水平高,其離散程度的測度值越大,反之越小。

2-4. 決定係數

決定係數(Coefficient of determination)又被稱為R2分數:


決定係數(Coefficient of determination)


當R2越接近1時,表示相關的方程式參考價值越高;相反,越接近0時,表示參考價值越低。這是在一元迴歸分析中的情況。但從本質上說決定係數和迴歸係數沒有關係,就像標準差和標準誤差在本質上沒有關係一樣。

3. 聚類的評價指標

3-1. 蘭德指數

蘭德指數(Rand index)需要給定實際類別資訊C,假設K是聚類結果,a表示在C與K中都是同類別的元素對數,b表示在C與K中都是不同類別的元素對數,則蘭德指數為:


蘭德指數(Rand index)


RI取值範圍為[0,1],值越大意味著聚類結果與真實情況越吻合。

  • 為了實現“在聚類結果隨機產生的情況下,指標應該接近零”,調整蘭德係數(Adjusted rand index)被提出,它具有更高的區分度:

ARI(Adjusted rand index)


ARI取值範圍為[−1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個資料分佈的吻合程度。

3-2. 互資訊

  • 互資訊(Mutual Information)是用來衡量兩個資料分佈的吻合程度。也是一有用的資訊度量,它是指兩個事件集合之間的相關性。
  • 用互資訊的方法,在某個類別C中的出現概率高,而在其它類別中的出現概率低的詞條T,將獲得較高的詞條和類別互資訊,也就可能被選取為類別C的特徵
  • 互資訊是term的存在與否能給類別c的正確判斷帶來的資訊量。
  • 詞條和類別的互資訊體現了詞條和類別的相關程度,互資訊越大,詞條和類別的相關程度也越大。得到詞條和類別之間的相關程度後,選取一定比例的,排名靠前的詞條作為最能代表此種類別的特徵。

互資訊(Mutual Information)

3-3. 輪廓係數

輪廓係數(Silhouette coefficient)適用於實際類別資訊未知的情況。對於單個樣本,設a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,輪廓係數為:


輪廓係數(Silhouette coefficient)


對於一個樣本集合,它的輪廓係數是所有樣本輪廓係數的平均值。
輪廓係數取值範圍是[−1,1],同類別樣本越距離相近且不同類別樣本距離越遠,分數越高

作者:袁一帆 連結:http://www.jianshu.com/p/b5996bf06bd6 來源:簡書 著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。