3. 線性模型效能分析--混淆矩陣(Confusion Matrix)
1. 什麼是混淆矩陣
在人工智慧中,混淆矩陣(confusion matrix)是視覺化工具,特別用於監督學習,在無監督學習一般叫做匹配矩陣。在影象精度評價中,主要用於比較分類結果和實際測得值,可以把分類結果的精度顯示在一個混淆矩陣裡面。混淆矩陣是通過將每個實測像元的位置和分類與分類影象中的相應位置和分類像比較計算的[1]。
通過分析混淆矩陣,我們可以得到:
* TPR (True Positive Rate), FPR (False Positive Rate) 並畫出ROC (Receiver Operating Characteristic)曲線和求出AUC (Area Under Curve)
* 準確率(Accuracy), 精確率(Precision), 召回率(Recall), F1值(F1 Score)
下面我們來分析混淆矩陣。
2. 混淆矩陣分析
分析:
TP:模型判定為P,實際上也是P,即判斷正確
FP:模型判定為N,實際上卻是P,即判斷錯誤
FN:模型判定為P,實際上卻是N,即判斷錯誤
TN:模型判定為N,實際上也是N,即判斷正確
存在關係:
3. Accuracy, Precision, Recall,F1-Measure的分析
舉例:要對癌症患者分類:良性和惡性。現在有200個患者,剛好100個良性,100個惡性,訓練之後的預測50個良性,150個惡性,即:預測50個良性正確,有50個良性被預測為惡性,100個惡性預測全部正確。
此時:
TP: 50
FP: 50
FN: 0
TN: 100
TPR: 0.5
FPR: 0.5
Accuracy: 75%
Precision: 50%
Recall: 100%
F1-Measure: 66.7% 即(23 )
4. ROC,AUC的分析:
4.1. ROC分析
關於ROC,先看下圖,
根據剛剛上面對TPR,FPR的分析,容易發現:
- 在(0,0)點,TP和FP都為0(FN和TN都為1),也就是說,對於所有值,預測模型都預測為Negative,即判斷為Positive的閾值過高。
- 在(1,1)點,TP和FP都為1(FN和TN都為0),也就是說,對於所有值,預測模型都預測為Positive,即判斷為Positive的閾值過低。
4.2. AUC分析
AUC(Area Under Curve),我覺得原名應為(Area Under roc Curve)更好,其定義為ROC曲線下的面積,面積的數值不會大於1。
ROC曲線一般都處於