模型（或系統）的評價指標

阿新 • • 發佈：2018-12-13

評價指標有準確率(Precision)、召回率(Recall)、F值(F-Measure)等；

以一個二分類問題為例，引出混淆矩陣的概念： True Positive(真正，TP)：將正類預測為正類數 True Negative(真負，TN)：將負類預測為負類數 False Positive(假正，FP)：將負類預測為正類數誤報 (Type I error) False Negative(假負，FN)：將正類預測為負類數→漏報 (Type II error) 1、準確率（Accuracy）準確率(accuracy)計算公式為： acc= (TP+TN)/(TP+TN+FP+FN) 注：準確率是我們最常見的評價指標，而且很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好。準確率確實是一個很好很直觀的評價指標，但是有時候準確率高並不能代表一個演算法就好。比如某個地區某天地震的預測，假設我們有一堆的特徵作為地震分類的屬性，類別只有兩個：0：不發生地震、1：發生地震。一個不加思考的分類器，對每一個測試用例都將類別劃分為0，那那麼它就可能達到99%的準確率，但真的地震來臨時，這個分類器毫無察覺，這個分類帶來的損失是巨大的。為什麼99%的準確率的分類器卻不是我們想要的，因為這裡資料分佈不均衡，類別1的資料太少，完全錯分類別1依然可以達到很高的準確率卻忽視了我們關注的東西。再舉個例子說明下。在正負樣本不平衡的情況下，準確率這個評價指標有很大的缺陷。比如在網際網路廣告裡面，點選的數量是很少的，一般只有千分之幾，如果用acc，即使全部預測成負類（不點選）acc也有 99% 以上，沒有意義。因此，單純靠準確率來評價一個演算法模型是遠遠不夠科學全面的。

2、錯誤率（Error rate）錯誤率則與準確率相反，描述被分類器錯分的比例; error rate= (FP+FN)/(TP+TN+FP+FN) 對某一個例項來說，分對與分錯是互斥事件，所以accuracy =1 - error rate。 3、靈敏度（sensitive） sensitive = TP/P，表示的是所有正例中被分對的比例，衡量了分類器對正例的識別能力。 4、特效度（sensitive） specificity = TN/N，表示的是所有負例中被分對的比例，衡量了分類器對負例的識別能力。 5、精確率、精度（Precision）精確率(precision)定義為： P=TP/(TP+FP) 表示被分為正例的示例中實際為正例的比例。 6、召回率（recall）召回率是覆蓋面的度量，度量有多個正例被分為正例， recall=TP/(TP+FN)=TP/P=sensitive

7、綜合評價指標（F-Measure） P和R指標有時候會出現的矛盾的情況，這樣就需要綜合考慮他們，最常見的方法就是F-Measure（又稱為F-Score）。 F-Measure是Precision和Recall加權調和平均： F=(〖(α〗^2+1)P*R)/(α^2 (P+R)) 當引數α=1時，就是最常見的F1，也即 F=(2P*R)/(P+R) 可知F1綜合了P和R的結果，當F1較高時則能說明模型越好。 8、其他評價指標計算速度：分類器訓練和預測需要的時間；魯棒性：處理缺失值和異常值的能力；可擴充套件性：處理大資料集的能力；可解釋性：分類器的預測標準的可理解性，像決策樹產生的規則就是很容易理解的，而神經網路的一堆引數就不好理解，我們只好把它看成一個黑盒子。下面來看一下ROC和PR曲線（以下內容為自己總結）： 9、ROC曲線受試者工作特徵曲線 (receiver operating characteristic curve，簡稱ROC曲線)，又稱為感受性曲線(sensitivity curve)。 ROC（Receiver Operating Characteristic）曲線是以假正率（FP_rate）和真正率（TP_rate）為軸的曲線，ROC曲線下面的面積我們叫做AUC，如下圖所示：

TP_rate與FP_rate的關係是benefit和cost的關係；其中：TP_rate=TP/P FP_rate=FP/N （1）曲線與FP_rate軸圍成的面積（記作AUC）越大，說明效能越好，即圖上L2曲線對應的效能優於曲線L1對應的效能。即：曲線越靠近A點（左上方）效能越好，曲線越靠近B點（右下方）曲線效能越差。（2）A點是最完美的performance點，B處是效能最差點。（3）位於C-D線上的點說明演算法效能和隨機猜測是一樣的–如C、D、E點。位於C-D之上（即曲線位於白色的三角形內）說明演算法效能優於隨機猜測–如G點，位於C-D之下（即曲線位於灰色的三角形內）說明演算法效能差於隨機猜測–如F點。（4）雖然ROC曲線相比較於Precision和Recall等衡量指標更加合理，但是其在高不平衡資料條件下的的表現仍然過於理想，不能夠很好的展示實際情況。 10、PR（Precision-Recall）曲線舉個例子（例子來自Paper：Learning from eImbalanced Data）：假設N_c>>P_c（即Negative的數量遠遠大於Positive的數量），若FP很大，即有很多N的sample被預測為P，因為FP_rate=FP/Nc，因此FP_rate的值仍然很小（如果利用ROC曲線則會判斷其效能很好，但是實際上其效能並不好），但是如果利用PR，因為Precision綜合考慮了TP和FP的值，因此在極度不平衡的資料下（Positive的樣本較少），PR曲線可能比ROC曲線更實用。

11、MAE(mean absolute error) 平均絕對誤差

12、MSE(mean square error) 均方誤差

本文整理參考：https://www.cnblogs.com/Zhi-Z/p/8728168.html

模型（或系統）的評價指標

模型（或系統）的評價指標

推薦系統排序（Rank）評價指標總結

指標與變數（或陣列）的動態建立與釋放

【模型評估】混淆矩陣（Confusion matrix）及其指標

刪除（或新增）多餘系統引導項

對用父類指標（或引用）指向父類物件和子類物件時,從而用父類指標或者引用訪問成員時的深刻理解；

物理機在windows 7 下安裝redhat 7（雙系統）

信用卡評分模型（R語言）

hadoop偽分布式集群搭建與安裝（ubuntu系統）

8.10 響應式布局2 彈性網絡（柵格系統）響應式圖片

J2EE環境配置（windows系統）

62、django之MTV模型（urls,view）

Windows遠程連接server（Linux系統）及可視化

phpstorm（或webstorm）打開後一直停留在scanning files to index....，或跳出內存不夠的提示框

HDU3727 Jewel（主席樹+樹狀數組（或二分））

Python3.6（windows系統）安裝libxml2庫

Python3.6（windows系統）安裝requests庫

Java開發環境配置（windows系統）

js獲取n分鐘（或n小時或n個月）後（或前）的時間（日期）

【轉載】Eclipse vs IDEA快捷鍵對比大全（win系統）

模型（或系統）的評價指標

相關推薦