深入理解線性迴歸演算法(三):淺談貝葉斯線性迴歸
前言
上文介紹了正則化項與貝葉斯的關係,正則化項對應於貝葉斯的先驗分佈,因此通過設定引數的先驗分佈來調節正則化項。本文首先介紹了貝葉斯線性迴歸的相關性質,和正則化引數λ的作用,然後簡單介紹了貝葉斯思想的模型比較,最後總結全文。
目錄
1、後驗引數分佈和預測變數分佈
2、正則化引數λ的作用
3、貝葉斯模型比較
4、總結
1、引數的後驗分佈和預測變數分佈
已知模型引數的先驗分佈和高斯分佈的資料集,引數的後驗分佈通過貝葉斯定理求得。
模型引數w的先驗分佈:
高斯分佈的資料集的似然函式:
1、模型的引數後驗分佈
後驗分佈求解步驟:
性質:
如下圖:
三張圖分別為樣本數等於1、2、20的引數後驗分佈:
由上面三圖可知,當樣本數逐漸增加時,引數w分佈的等高圓半徑越來越小,即協方差項越來越小,引數w的確定性增大。
2、模型的預測變數分佈
下圖樣本數分別為2,4,25的預測變數的分佈:
由上面三圖可知,暗紅色區域代表預測變數的方差,當樣本數增加時,預測變數的方差變小,確定性增加。
因此,增加樣本資料可以提高預測結果的準確性。
2、正則項引數λ的作用
含正則化項L2範數的損失函式:
引數的先驗分佈為高斯分佈,引數後驗分佈的自然對數為:
因此,最大化引數w的後驗分佈等同於最小化含正則項的損失函式。β表示觀測資料集的精度,α表示先驗引數分佈的精度,λ衡量這兩項的相對重要程度。
最大化引數w的後驗分佈,得引數w:
由上式可知,當λ等於0時,無先驗分佈,引數等於最大似然函式對應的模型引數,模型複雜度達到最大。當λ增大時,引數的分量變小,若λ足夠大,則引數的某些分量等於0,因此正則項引數的作用是調節模型的複雜度。
3、貝葉斯模型比較
常用的模型比較方法有留出法、交叉驗證法和自助法,這三種方法的缺點在於無法用完整的訓練資料構建模型,因此構建的模型可能不符合真實模型。
最大似然函式構建的模型存在過擬合,因為最大似然函式認為引數w是常數,即引數w的點估計。
貝葉斯模型避免過擬合問題,因為貝葉斯認為引數w是分佈在一定的引數空間,所有可能的w與似然函式加權求和(如下圖),得到的預測變數能夠避免過擬合問題。
因此,貝葉斯可以使用整個訓練資料集來進行模型比較。
模型證據
假設共有L個模型{Mi},其中i=1,2,...,L。假設資料集D是由其中一個模型生成的,模型Mi生成資料集的概率稱模型證據,如下表達式。
其中,模型Mi是由引數w控制的,即不同的引數w代表不同的模型。
由於資料集D是隨機抽樣生成的,有可能會出現錯誤的模型產生的更大的模型證據,為了避免這一偶然因素,採用期望的形式去比較模型,如下圖。
若資料集D是由模型M1產生的,那麼上式恆大於0。
總結
本文簡單的介紹了貝葉斯線性迴歸的相關性質,樣本數增加可以減小引數w和預測變數的分佈空間,提高準確性。貝葉斯的模型比較之所以可以使用整個訓練資料集,是因為貝葉斯對引數w的分佈空間進行了加權求和。
參考
Christopher M.Bishop <<Pattern Reconition and Machine Learning>>
推薦閱讀文章