【機器學習】馬修斯相關係數(Matthews correlation coefficient)
阿新 • • 發佈:2018-12-17
馬修斯相關係數(Matthews correlation coefficient)
馬修斯相關係數是在使用機器學習作為二進位制(2類)的質量的度量的分類,通過布賴恩W.馬修斯在1975年由生物化學引入
它考慮到真和假陽性和假陰性,並且通常是被視為一種平衡的措施,即使這些類別的規模大小不同也可以使用。
MC實質上是觀察到的類別和預測的二元分類之間的相關係數; 它返回介於-1和+1之間的值。係數+1表示完美預測,0表示不比隨機預測好,-1表示預測和觀察之間的完全不一致。統計資料也稱為phi係數。MCC與2×2 列聯表的卡方統計量相關
其中n是觀察總數。雖然沒有完美的方法用一個數字來描述真假陽性和陰性的混淆矩陣,但馬修斯相關係數通常被認為是最好的這種測量之一。
當兩個類別具有非常不同的大小時,其它度量(例如正確預測的比例(也稱為準確性))無用。例如,將每個物件分配給較大的集合可以實現高比例的正確預測,但通常不是有用的分類。可以使用以下公式直接從混淆矩陣計算MCC :
在這個公式中,TP是真陽性數量,TN的真陰性數量,FP的假陽性數量和FN的假陰性數量。如果分母中的四個和中的任何一個為零,則分母可以任意設定為1; 這導致Matthews相關係數為零,這可以顯示為正確的限制值。
馬修斯給出的原始公式是:
這等於上面給出的公式。
作為相關係數,
馬修斯相關係數是問題及其對偶的迴歸係數的幾何平均數。
Matthews相關係數的分量回歸係數是Markedness(Δp)和Youden的J統計量(Informedness或Δp’)。
標記和知情對應於不同的資訊流方向,並推廣了Youden的J統計量, {\ displaystyle \ delta}p統計和(作為它們的幾何平均值)馬修斯相關係數超過兩個類。
一些科學家聲稱,馬修斯相關係數是在混淆矩陣環境中建立二元分類器預測質量的最具資訊性的單一分數。
參考:https://en.wikipedia.org/wiki/Matthews_correlation_coefficient