1. 程式人生 > >正則化、交叉驗證及泛化能力

正則化、交叉驗證及泛化能力

一、正則化
1、模型選擇典型的方式就是正則化。正則化就是結構風險最小化策略的實現,就是在經驗風險項中新增一個鄭澤華想或者叫做懲罰項。
正則化項與模型的關係一般是模型複雜度越高,正則化項的值就會越大。
正則化項的作用就是平衡經驗風險較小與模型複雜度較小。最好的結果就是經驗風險和模型複雜度同時較小。
正則化的一般形式為:
minNi=11NL(yi,f(xi))+λJ(f)
其中,第一項為經驗風險項,第二項為正則化項。值λ 是為了調整兩者關係的係數。

二、交叉驗證
通常情況下,我們做模型選擇的時候將資料分為訓練集、驗證集和測試集。但是實際應用中,往往資料並不是很充足,這就導致分為三部分後每一部分資料量不足,這樣計算選擇得到的模型往往是不可用的。因此我們在這種情況下,可以選擇使用交叉驗證的方式解決資料量不足的情況。
1、簡單地交叉驗證
簡單地交叉驗證,就是指隨機的將資料分為兩部分,一部分為訓練資料,一部分為測試資料,一般情況下比例為7:3。使用訓練資料應用到各種模型的訓練上得到多個不同的模型,然後利用測試資料計算每個模型的計算誤差,最終選擇誤差最小的模型即為最優的模型。
2、S折交叉驗證
S折交叉驗證,就是將資料等比例的分為S份,然後選擇其中的S-1份資料作為訓練資料,剩餘的一份作為測試資料,這樣訓練資料及測試資料就有S中選擇,於是最終選擇通過S次評測平均測試誤差最小的模型為最優模型。

三、泛化能力
1、定義:泛化能力就是指所學到的模型對未知資料的預測能力,通常情況我們使用測試資料來驗證模型的泛化能力,但是由於資料集有線,其並不能包含資料所有的可能情況,因此測試資料的測試結果並不能完全體現模型的泛化能力,這種評測結果並不可靠。
2、泛化誤差
假設學到的模型為f^,則模型的泛化誤差為:
Rexp=Ep[L(Y,f^(x))]=xyL(Y,f^(x))P(x,y)dxdy
泛化誤差反映了模型的泛化能力,模型選擇中,泛化誤差越小則模型越好。
3、泛化誤差上界
通常學習方法的泛化能力分析是研究泛化誤差得概率上界。比較兩個學習方法的泛化誤差上界來確定兩個學習方法的優劣。其性質如下:
(1)泛化誤差上界是樣本容量的函式,樣本容量越大,則泛化誤差上界越趨於0。
(2)泛化誤差上界是函式空間的函式,假設空間容量越大,模型就越難學,泛化誤差上界就越大。