1. 程式人生 > >ML筆記 - 模型的效能度量

ML筆記 - 模型的效能度量

效能度量(Performance Measure)

評價模型泛化能力的標準。
對於不同的模型,有不同的評價標準,不同的評價標準將導致不同的評價結果。
模型的好壞是相對的,取決於對於當前任務需求的完成情況。
比如對迴歸模型的效能度量通常選用均方誤差(Mean Squared Error),對分類模型的效能度量通常採用錯誤率、精度、查準率、查全率、P-R曲線、混餚矩陣等。

比較檢驗

選擇合適的評估方法和相應的效能度量,計算出效能度量後直接比較。
存在的問題:

  • 模型評估得到的是測試集上的效能,並非嚴格意義上的泛化效能,兩者並不完全相同。
  • 測試集上的效能和樣本的選取有很大關係,不同的劃分,測試結果會不同,比較缺乏穩定性。
  • 很多模型本身有隨機性,即使引數和資料集相同,其執行結果存在差異。

統計假設檢驗(Hypothesis Test)

事先對總體的引數或者分佈做一個假設,然後基於已有的樣本資料去判斷這個假設是否合理。
即樣本和總體假設之間的不同是純屬機會變異(因為隨機性誤差導致的不同),還是兩者確實不同。
常用的假設檢驗方法有T-檢驗法、卡方檢驗、F-檢驗法等。
基本思想:

  • 從樣本推斷整體
  • 通過反證法推斷假設是否成立
  • 小概率事件在一次試驗中基本不會發生
  • 不輕易拒絕原假設
  • 通過顯著性水平定義小概率事件不可能發生的概率
  • 全稱命題只能被否定而不能被證明

偏差與方差

偏差(Bias)
描述的是根據樣本擬合出的模型的輸出預測結果的期望與樣本真實結果的差距,即在樣本上擬合得好不好。
方差(Variance)
模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。
噪聲(Noise)
為真實標記與資料集總的實際標記間的偏差。
通常由多種因素綜合影響造成,不可去除。

偏差度量了學習演算法的期望預測與真實結果的偏離程度,刻畫了學習演算法本身的擬合能力。
方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響。
噪聲表達了在當前任務上任何學習演算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。

偏差體現的是最終結果和實際結果的差異,偏差越小,和真實結果越接近。
方差體現的是整體水平波動,方差越小,結果穩定性越好。
期望的模型結果為:低偏差,低方差

偏差體現的是擬合程度的優劣,通常模型越複雜,偏差越小。當偏差較大時,即預期輸出和實際結果偏離較大,稱之為欠擬合。
方差體現的是模型的穩定程度。通常模型越簡單,方差越小。當方差較大時,模型不穩定,即對一些新資料的預測不穩定。偏差小,方差大的情況即為過擬合。
在這裡插入圖片描述