1. 程式人生 > 實用技巧 >ISLR讀書筆記九:自助法(bootstrap)

ISLR讀書筆記九:自助法(bootstrap)

自助法是一類應用很廣的統計方法,可以用來定量化引數估計或者統計學習方法的不確定性。自助法重複地從原資料集中取樣,這裡取樣是可放回的(replacement),可以允許有同樣的樣本出現,然後用得到的樣本進行引數估計。
舉一個例子來說明自助法的應用。假設有 X X X Y Y Y 兩種不同的金融資產,現要對 X X X Y Y Y 進行投資,使得總風險最小。假設有 α \alpha α 投給了 X X X 1 − α 1-\alpha 1α 投給了 Y Y Y,那麼總風險就是 V a r ( α X + ( 1 − α ) Y ) Var(\alpha X+(1-\alpha)Y)

Var(αX+(1α)Y)。可以證明,當:
α = σ Y 2 − σ X Y σ X 2 + σ Y 2 − 2 σ X Y \alpha = \frac{\sigma_Y^2-\sigma_{XY}}{\sigma_X^2+\sigma_Y^2-2\sigma_{XY}} α=σX2+σY22σXYσY2σXY
時,總風險最小,這裡 σ X 2 = V a r ( X ) , σ Y 2 = V a r ( Y ) , σ X Y = C o v ( X , Y ) \sigma_X^2=Var(X),\sigma_Y^2=Var(Y),\sigma_{XY}=Cov(X,Y)
σX2=Var(X),σY2=Var(Y),σXY=Cov(X,Y)

實際問題中, σ X 2 , σ Y 2 , σ X Y \sigma_X^2,\sigma_Y^2,\sigma_{XY} σX2,σY2,σXY 都是未知的,可以用原資料得到他們的估計: σ ^ X 2 , σ ^ Y 2 , σ ^ X Y \hat\sigma_X^2,\hat\sigma_Y^2,\hat\sigma_{XY} σ^X2,σ^Y2,σ^XY,然後得到
α ^ = σ ^ Y 2 − σ ^ X Y σ ^ X 2 + σ ^ Y 2 − 2 σ ^ X Y \hat\alpha = \frac{\hat\sigma_Y^2-\hat\sigma_{XY}}{\hat\sigma_X^2+\hat\sigma_Y^2-2\hat\sigma_{XY}}
α^=σ^X2+σ^Y22σ^XYσ^Y2σ^XY

自助法旨在估計 S E ( α ) SE(\alpha) SE(α)
假設總共有 n = 3 n=3 n=3 個觀測資料,原資料集記作為 Z Z Z。我們先隨機有放回地選擇 n n n 個數據,得到一個新的資料集記作 Z ∗ 1 Z^{*1} Z1(如下圖 ),然後用 Z ∗ 1 Z^{*1} Z1 得到 α \alpha α 的一個估計,記作 α ∗ 1 \alpha^{*1} α1。再將該操作重複 B B B 次,得到資料集 Z ∗ 1 , Z ∗ 2 , ⋯   , Z ∗ B Z^{*1},Z^{*2},\cdots,Z^{*B} Z1,Z2,,ZB,還有 α \alpha α 的估計 α ∗ 1 , α ∗ 2 , ⋯ α ∗ B \alpha^{*1},\alpha^{*2},\cdots \alpha^{*B} α1,α2,αB,那麼 S E ( α ) SE(\alpha) SE(α) 就可以用下式來估計:
S E B ( α ^ ) = 1 B − 1 ∑ r = 1 B ( α ^ ∗ r − 1 B ∑ r ′ = 1 B α ^ ∗ r ′ ) 2 SE_B(\hat\alpha)=\sqrt{\frac{1}{B-1}\sum_{r=1}^B(\hat\alpha^{*r}-\frac{1}{B}\sum_{r'=1}^B\hat\alpha^{*r'})^2} SEB(α^)=B11r=1B(α^rB1r=1Bα^r)2
bootstrap