ISLR讀書筆記九:自助法(bootstrap)
自助法是一類應用很廣的統計方法,可以用來定量化引數估計或者統計學習方法的不確定性。自助法重複地從原資料集中取樣,這裡取樣是可放回的(replacement),可以允許有同樣的樣本出現,然後用得到的樣本進行引數估計。
舉一個例子來說明自助法的應用。假設有
X
X
X 和
Y
Y
Y 兩種不同的金融資產,現要對
X
X
X 和
Y
Y
Y 進行投資,使得總風險最小。假設有
α
\alpha
α 投給了
X
X
X,
1
−
α
1-\alpha
1−α 投給了
Y
Y
Y,那麼總風險就是
V
a
r
(
α
X
+
(
1
−
α
)
Y
)
Var(\alpha X+(1-\alpha)Y)
α
=
σ
Y
2
−
σ
X
Y
σ
X
2
+
σ
Y
2
−
2
σ
X
Y
\alpha = \frac{\sigma_Y^2-\sigma_{XY}}{\sigma_X^2+\sigma_Y^2-2\sigma_{XY}}
α=σX2+σY2−2σXYσY2−σXY
時,總風險最小,這裡
σ
X
2
=
V
a
r
(
X
)
,
σ
Y
2
=
V
a
r
(
Y
)
,
σ
X
Y
=
C
o
v
(
X
,
Y
)
\sigma_X^2=Var(X),\sigma_Y^2=Var(Y),\sigma_{XY}=Cov(X,Y)
實際問題中,
σ
X
2
,
σ
Y
2
,
σ
X
Y
\sigma_X^2,\sigma_Y^2,\sigma_{XY}
σX2,σY2,σXY 都是未知的,可以用原資料得到他們的估計:
σ
^
X
2
,
σ
^
Y
2
,
σ
^
X
Y
\hat\sigma_X^2,\hat\sigma_Y^2,\hat\sigma_{XY}
σ^X2,σ^Y2,σ^XY,然後得到
α
^
=
σ
^
Y
2
−
σ
^
X
Y
σ
^
X
2
+
σ
^
Y
2
−
2
σ
^
X
Y
\hat\alpha = \frac{\hat\sigma_Y^2-\hat\sigma_{XY}}{\hat\sigma_X^2+\hat\sigma_Y^2-2\hat\sigma_{XY}}
自助法旨在估計
S
E
(
α
)
SE(\alpha)
SE(α)
假設總共有
n
=
3
n=3
n=3 個觀測資料,原資料集記作為
Z
Z
Z。我們先隨機有放回地選擇
n
n
n 個數據,得到一個新的資料集記作
Z
∗
1
Z^{*1}
Z∗1(如下圖 ),然後用
Z
∗
1
Z^{*1}
Z∗1 得到
α
\alpha
α 的一個估計,記作
α
∗
1
\alpha^{*1}
α∗1。再將該操作重複
B
B
B 次,得到資料集
Z
∗
1
,
Z
∗
2
,
⋯
,
Z
∗
B
Z^{*1},Z^{*2},\cdots,Z^{*B}
Z∗1,Z∗2,⋯,Z∗B,還有
α
\alpha
α 的估計
α
∗
1
,
α
∗
2
,
⋯
α
∗
B
\alpha^{*1},\alpha^{*2},\cdots \alpha^{*B}
α∗1,α∗2,⋯α∗B,那麼
S
E
(
α
)
SE(\alpha)
SE(α) 就可以用下式來估計:
S
E
B
(
α
^
)
=
1
B
−
1
∑
r
=
1
B
(
α
^
∗
r
−
1
B
∑
r
′
=
1
B
α
^
∗
r
′
)
2
SE_B(\hat\alpha)=\sqrt{\frac{1}{B-1}\sum_{r=1}^B(\hat\alpha^{*r}-\frac{1}{B}\sum_{r'=1}^B\hat\alpha^{*r'})^2}
SEB(α^)=B−11r=1∑B(α^∗r−B1r′=1∑Bα^∗r′)2