機器學習中的單一評價指標
阿新 • • 發佈:2019-01-03
前言
在使用機器學習,通常都會面對一種情況,面對眾多的模型和眾多的效能指標,究竟應該如何來選擇模型。本篇文章主要就是介紹,如何利用單一評估指標來選擇模型,主要內容來自於deeplearnai視訊教程。
單一評估指標
應用機器學習主要可以分為三個過程想法、編碼、看效果。當最開始面對一個需要解決的問題時候,我們往往都會有一個想法,然後根據我們的想法來進行編碼,最後會根據編碼後的實際效果來產生新的想法,然後再修改程式碼,如此迴圈。
下面通過一個例子來說明查準率和查全率,假設我們有一個貓狗分類器,一共有100張圖片,其中貓和狗的圖片各佔50佔,預測結果用一個表格說明。
上表表示的是其實是一個混淆矩陣,對角線表示的是預測的類標和真實的類標是一致的。這裡將貓被稱為正例,狗被稱為反例。50張貓的圖片,有30張圖片預測正確也就是真正例(TP),還有20張貓的圖片被預測成了狗也就是假反例(FN)。50張狗的圖片,有40張圖片被正確的預測了也就是真反例(TN),還有10張狗的圖片被預測稱為了貓也就是假正例(FP)。
查準率(precision)
查全率(recall):也被稱為召回率,計算公式如下
查準率其實就是,對於某一類預測結果中,預測正確所佔的比例。查準率追求的是預測結果的準確性。而查全率就是,對於某一類預測結果,正確找出該類圖片所佔的比例。查全率追求的是預測結果的全面性。
起初我們有一個貓和狗的分類器A,分類器A的查準率(precision)為95%,查全率(recall)為90%。通過調參和優化模型的演算法後,我們獲得了一個貓狗分類器B,分類器B的查準率(precision)為98%,查全率(reacall)為85%。
此時面對分類器A和B的時候,我們就會遇到一個問題,到底應該選擇哪個分類器?對於精準度而言分類器B的效能要高於分類器A,對於召回率而言分類器A的效能又要優於分類器B。所以這時我們就不知道應該選擇哪一個分類器了。
單一評估指標
F1 socre的計算公式如下:
其中P代表查準率,R代表查全率,通過F1 score就可以平衡查準率和查全率的評價指標。F1 score也被稱為查準率和查全率的調和平均數。
在有些時候,我們可能會遇到下面這種情況
有時候可能會遇到,對於一個模型而言,需要考察多個不同的指標,這時候我們可以考慮採用多個不同指標的平均值,如果對於某些指標的要求會比較高,這時可以通過調節這些指標所佔的權重,來突出這些指標的重要性。