模型(或系統)的評價指標
評價指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等;
以一個二分類問題為例,引出混淆矩陣的概念: True Positive(真正,TP):將正類預測為正類數 True Negative(真負,TN):將負類預測為負類數 False Positive(假正,FP):將負類預測為正類數誤報 (Type I error) False Negative(假負,FN):將正類預測為負類數→漏報 (Type II error) 1、準確率(Accuracy) 準確率(accuracy)計算公式為: acc= (TP+TN)/(TP+TN+FP+FN) 注:準確率是我們最常見的評價指標,而且很容易理解,就是被分對的樣本數除以所有的樣本數,通常來說,正確率越高,分類器越好。 準確率確實是一個很好很直觀的評價指標,但是有時候準確率高並不能代表一個演算法就好。比如某個地區某天地震的預測,假設我們有一堆的特徵作為地震分類的屬性,類別只有兩個:0:不發生地震、1:發生地震。一個不加思考的分類器,對每一個測試用例都將類別劃分為0,那那麼它就可能達到99%的準確率,但真的地震來臨時,這個分類器毫無察覺,這個分類帶來的損失是巨大的。為什麼99%的準確率的分類器卻不是我們想要的,因為這裡資料分佈不均衡,類別1的資料太少,完全錯分類別1依然可以達到很高的準確率卻忽視了我們關注的東西。再舉個例子說明下。在正負樣本不平衡的情況下,準確率這個評價指標有很大的缺陷。比如在網際網路廣告裡面,點選的數量是很少的,一般只有千分之幾,如果用acc,即使全部預測成負類(不點選)acc也有 99% 以上,沒有意義。因此,單純靠準確率來評價一個演算法模型是遠遠不夠科學全面的。
2、錯誤率(Error rate) 錯誤率則與準確率相反,描述被分類器錯分的比例; error rate= (FP+FN)/(TP+TN+FP+FN) 對某一個例項來說,分對與分錯是互斥事件,所以accuracy =1 - error rate。 3、靈敏度(sensitive) sensitive = TP/P,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。 4、特效度(sensitive) specificity = TN/N,表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力。 5、精確率、精度(Precision) 精確率(precision)定義為: P=TP/(TP+FP) 表示被分為正例的示例中實際為正例的比例。 6、召回率(recall) 召回率是覆蓋面的度量,度量有多個正例被分為正例, recall=TP/(TP+FN)=TP/P=sensitive
7、綜合評價指標(F-Measure) P和R指標有時候會出現的矛盾的情況,這樣就需要綜合考慮他們,最常見的方法就是F-Measure(又稱為F-Score)。 F-Measure是Precision和Recall加權調和平均: F=(〖(α〗^2+1)P*R)/(α^2 (P+R)) 當引數α=1時,就是最常見的F1,也即 F=(2P*R)/(P+R) 可知F1綜合了P和R的結果,當F1較高時則能說明模型越好。 8、其他評價指標 計算速度:分類器訓練和預測需要的時間; 魯棒性:處理缺失值和異常值的能力; 可擴充套件性:處理大資料集的能力; 可解釋性:分類器的預測標準的可理解性,像決策樹產生的規則就是很容易理解的,而神經網路的一堆引數就不好理解,我們只好把它看成一個黑盒子。 下面來看一下ROC和PR曲線(以下內容為自己總結): 9、ROC曲線 受試者工作特徵曲線 (receiver operating characteristic curve,簡稱ROC曲線),又稱為感受性曲線(sensitivity curve)。 ROC(Receiver Operating Characteristic)曲線是以假正率(FP_rate)和真正率(TP_rate)為軸的曲線,ROC曲線下面的面積我們叫做AUC,如下圖所示:
11、MAE(mean absolute error) 平均絕對誤差
12、MSE(mean square error) 均方誤差
本文整理參考:https://www.cnblogs.com/Zhi-Z/p/8728168.html