1. 程式人生 > >用來評估模型好壞的方差和偏差的概念及區別對比

用來評估模型好壞的方差和偏差的概念及區別對比

一、基本概念上的對比解釋
1、偏差Bias:描述的是預測值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實資料,物件是單個模型。 
2、方差Variance:描述的是預測值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,資料的分佈越分散,物件是多個模型

在忽略噪聲的情況下,泛化誤差可分解為偏差、方差兩部分。 
偏差:度量學習演算法的期望預測與真實結果的偏離程度,也叫擬合能力。 
方差:度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動造成的影響。

解釋: 
左上:低偏差,低方差。表現出來就是,預測結果準確率很高,並且模型比較健壯(穩定),預測結果高度集中。
右上:低偏差,高方差。表現出來就是,預測結果準確率較高,並且模型不穩定,預測結果比較發散。

左下:高偏差,低方差。表現出來就是,預測結果準確率較低,但是模型穩定,預測結果比較集中。

右下:高偏差,高方差。表現出來就是,預測結果準確率較低,模型也不穩定,預測結果比較發散。
 

二、兩者的通俗解釋對比
想象你開著一架黑鷹直升機,得到命令攻擊地面上一隻敵軍部隊,於是你連打數十梭子,結果有一下幾種情況: 
1.子彈基本上都打在隊伍經過的一棵樹上了,連在那棵樹旁邊等兔子的人都毫髮無損,這就是方差小(子彈打得很集中),偏差大(跟目的相距甚遠)。 
2.子彈打在了樹上,石頭上,樹旁邊等兔子的人身上,花花草草也都中彈,但是敵軍安然無恙,這就是方差大(子彈到處都是),偏差大(同1)。 
3.子彈打死了一部分敵軍,但是也打偏了些打到花花草草了,這就是方差大(子彈不集中),偏差小(已經在目標周圍了)。 
4.子彈一顆沒浪費,每一顆都打死一個敵軍,跟抗戰劇裡的八路軍一樣,這就是方差小(子彈全部都集中在一個位置),偏差小(子彈集中的位置正是它應該射向的位置)。

方差,是形容資料分散程度的,算是“無監督的”,客觀的指標,偏差,形容資料跟我們期望的中心差得有多遠,算是“有監督的”,有人的知識參與的指標。

三、從模型和資料集上來說兩者
偏差描述的是模型傾向同類預測錯誤的程度,方差描述的是模型在做同類預測時出現的波動程度。這兩個度量都與模型的泛化誤差相關,兩者值越小,對應的泛化誤差也就越小。 
從模型上來說,對於一個非線性分類問題而言(如XOR),簡單的線性分類器(無維度空間對映)由於自身特性並不能較好地進行類別劃分,模型會出現較大的偏差;而決策樹模型作為非線性分類器,能較好的擬合訓練樣本,偏差值較小,但若模型過於擬合訓練樣本,測試樣本出現了訓練樣本考慮不周的情況,則容易出現預測誤差,即方差值較高。對於一個模型l而言,我們當然希望泛化誤差越小越好,可以通過一些方法來減小上述的偏差和方差。例如,常見的random forest就是通過取樣和融合多棵決策樹來減小泛化誤差的一種方法。 
從資料集上來說,如果資料集小的話一般就估計不準偏差就大(資料少可能就會樣本相對集中方差反而小),通過增大樣本容量可以減小偏差,但是增大容量也許就會導致資料分佈比較離散,相對應的方差也會隨之增大,然後我們選擇模型的時候一般會根據訓練資料和目標來權衡方差和偏差,比如用最小化MSE就是結合了方差和偏差。

四、其他
寫這篇文章來源於問題“用隨機森林的方式能對邏輯迴歸優化嗎?” 
樹的組合(ensemble of trees):樹模型的特點,低偏差(bias),高方差(variance),通過 bagging,保持低偏差,降低模型方差,避免過擬合。 
LR的組合:線性模型,相對樹而言,高偏差,低方差,bagging 的作用其實有限,因為模型本來就很穩定了。 
一個比方:一個每個人的觀點差別不大的社會,投票做出的決定,一定和單獨的個體做出的決定差不多。一個每個人有著千差萬別的價值觀的社會,投票做出的決定,也許比任何一個單獨的人做出的決定更好。 
所以,如果要走這條路,就必須保證每個 LR 都描述問題的不同維度,最後再放在一起投票。

理論上行得通 
通過隨機性(資料樣本隨機取樣、輸入屬性隨機取樣)構建多個弱分類器(弱的LR,啟用函式為sigmoid), 後面再加一層次級分類器。 
相當於一個兩層的神經網路,隱含層的輸出為多個弱分類器的輸出(注意一定是經過sigmoid後的概率輸出,作為輸入進入次級的分類器)。 
因為引入了非線性的啟用函式,模型比之前的LR(單層的神經網路)能力要強大一些。

實踐意義不大 
1、xgboost本身已經把boosting和rf的思想都考慮進去,增強模型複雜度(vc維大),同時通過多個引數避免overfitting 
2、neurual network也類似 
3、結論:你的這種想法,沒有必要搞。即使搞,也搞不過xgb和neurual network.

五、參考文獻
https://www.zhihu.com/question/20448464
https://blog.csdn.net/abc200941410128/article/details/78674439 

https://blog.csdn.net/u010626937/article/details/74435109 
版權宣告:本文為博主原創文章,轉載請附上博文連結!