赤池信息準則AIC,BIC
很多參數估計問題均采用似然函數作為目標函數,當訓練數據足夠多時,可以不斷提高模型精度,但是以提高模型復雜度為代價的,同時帶來一個機器學習中非常普遍的問題——過擬合。所以,模型選擇問題在模型復雜度與模型對數據集描述能力(即似然函數)之間尋求最佳平衡。
人們提出許多信息準則,通過加入模型復雜度的懲罰項來避免過擬合問題,此處我們介紹一下常用的兩個模型選擇方法——赤池信息準則(Akaike Information Criterion,AIC)和貝葉斯信息準則(Bayesian Information Criterion,BIC)。
1.AIC準則
AIC是衡量統計模型擬合優良性的一種標準,由日本統計學家赤池弘次在1974年提出,它建立在熵的概念上,提供了權衡估計模型復雜度和擬合數據優良性的標準。
通常情況下,它是擬合精度和參數未知個數的加權函數,AIC定義為:
AIC=2k-2In(L)
當在兩個模型之間存在著相當大的差異時,這個差異出現於上式第二項,而當第二項不出現顯著性差異時,第一項起作用,從而參數個數少的模型是好的模型。
讓n為觀察數,RSS為剩余平方和,那麽AIC變為:
AIC=2k+nIn(RSS/n)
其中k是模型中未知參數個數,L是模型中極大似然函數值似然函數。從一組可供選擇的模型中選擇最佳模型時,通常選擇AIC最小的模型。
當兩個模型之間存在較大差異時,差異主要體現在似然函數項,
當似然函數差異不顯著時,上式第一項,即模型復雜度則起作用,從而參數個數少的模型是較好的選擇。
一般而言,當模型復雜度提高(k增大)時,似然函數L也會增大,從而使AIC變小,但是k過大時,似然函數增速減緩,導致AIC增大,模型過於復雜容易造成過擬合現象。目標是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項,使模型參數盡可能少,有助於降低過擬合的可能性。可見AIC準則有效且合理地控制了參數的維數k。顯然AIC準則追求似然函數盡可能大的同時,k要盡可能的小。
舉例:
設y1,y2,....,yn是來自未知總體g(y)的樣本。總體的概率密度為f(y;θ),θ是r*1未知參數向量。若θ的極大似然估計是θ*,則L(θ*)=∑_(i=1)^n?〖Inf(y_i;θ*)〗就是對數似然函數,由此,
AIC=-2L(θ*)+2r
可以度量f(y;θ)與g(y)之間的差異。
2.BIC
BIC(Bayesian InformationCriterion)貝葉斯信息準則與AIC相似,用於模型選擇,1978年由Schwarz提出。訓練模型時,增加參數數量,也就是增加模型復雜度,會增大似然函數,但是也會導致過擬合現象,針對該問題,AIC和BIC均引入了與模型參數個數相關的懲罰項,BIC的懲罰項比AIC的大,考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型復雜度過高。
BIC=kIn(n)-2In(L)
其中,k為模型參數個數,n為樣本數量,L為似然函數。kln(n)懲罰項在維數過大且訓練樣本數據相對較少的情況下,可以有效避免出現維度災難現象。
3.QAIC
為了使用過度離散(或缺乏擬合),提出了改進的AIC準則QAIC:
QAIC=-2In(L)/c+2k
c是方差膨脹因子
赤池信息準則AIC,BIC