ISLR讀書筆記九：自助法（bootstrap）

阿新 • • 發佈：2020-10-12

自助法是一類應用很廣的統計方法，可以用來定量化引數估計或者統計學習方法的不確定性。自助法重複地從原資料集中取樣，這裡取樣是可放回的（replacement），可以允許有同樣的樣本出現，然後用得到的樣本進行引數估計。
舉一個例子來說明自助法的應用。假設有 X X X 和 Y Y Y 兩種不同的金融資產，現要對 X X X 和 Y Y Y 進行投資，使得總風險最小。假設有 α \alpha α 投給了 X X X， 1 − α 1-\alpha 1−α 投給了 Y Y Y，那麼總風險就是 V a r ( α X + ( 1 − α ) Y ) Var(\alpha X+(1-\alpha)Y)

Var(αX+(1−α)Y)。可以證明，當：
α = σ Y 2 − σ X Y σ X 2 + σ Y 2 − 2 σ X Y \alpha = \frac{\sigma_Y^2-\sigma_{XY}}{\sigma_X^2+\sigma_Y^2-2\sigma_{XY}} α=σX2+σY2−2σXYσY2−σXY
時，總風險最小，這裡 σ X 2 = V a r ( X ) , σ Y 2 = V a r ( Y ) , σ X Y = C o v ( X , Y ) \sigma_X^2=Var(X),\sigma_Y^2=Var(Y),\sigma_{XY}=Cov(X,Y)

σX2=Var(X),σY2=Var(Y),σXY=Cov(X,Y)。
實際問題中， σ X 2 , σ Y 2 , σ X Y \sigma_X^2,\sigma_Y^2,\sigma_{XY} σX2,σY2,σXY 都是未知的，可以用原資料得到他們的估計： σ ^ X 2 , σ ^ Y 2 , σ ^ X Y \hat\sigma_X^2,\hat\sigma_Y^2,\hat\sigma_{XY} σ^X2,σ^Y2,σ^XY，然後得到
α ^ = σ ^ Y 2 − σ ^ X Y σ ^ X 2 + σ ^ Y 2 − 2 σ ^ X Y \hat\alpha = \frac{\hat\sigma_Y^2-\hat\sigma_{XY}}{\hat\sigma_X^2+\hat\sigma_Y^2-2\hat\sigma_{XY}}

α^=σ^X2+σ^Y2−2σ^XYσ^Y2−σ^XY
自助法旨在估計 S E ( α ) SE(\alpha) SE(α)
假設總共有 n = 3 n=3 n=3 個觀測資料，原資料集記作為 Z Z Z。我們先隨機有放回地選擇 n n n 個數據，得到一個新的資料集記作 Z ∗ 1 Z^{*1} Z∗1（如下圖），然後用 Z ∗ 1 Z^{*1} Z∗1 得到 α \alpha α 的一個估計，記作 α ∗ 1 \alpha^{*1} α∗1。再將該操作重複 B B B 次，得到資料集 Z ∗ 1 , Z ∗ 2 , ⋯ , Z ∗ B Z^{*1},Z^{*2},\cdots,Z^{*B} Z∗1,Z∗2,⋯,Z∗B，還有 α \alpha α 的估計 α ∗ 1 , α ∗ 2 , ⋯ α ∗ B \alpha^{*1},\alpha^{*2},\cdots \alpha^{*B} α∗1,α∗2,⋯α∗B，那麼 S E ( α ) SE(\alpha) SE(α) 就可以用下式來估計：
S E B ( α ^ ) = 1 B − 1 ∑ r = 1 B ( α ^ ∗ r − 1 B ∑ r ′ = 1 B α ^ ∗ r ′ ) 2 SE_B(\hat\alpha)=\sqrt{\frac{1}{B-1}\sum_{r=1}^B(\hat\alpha^{*r}-\frac{1}{B}\sum_{r'=1}^B\hat\alpha^{*r'})^2} SEB(α^)=B−11r=1∑B(α^∗r−B1r′=1∑Bα^∗r′)2
bootstrap

ISLR讀書筆記九：自助法（bootstrap）

ISLR讀書筆記九：自助法（bootstrap）

JavaSE學習筆記20：IO流（一）

JavaSE學習筆記21：IO流（二）

演算法：回溯法（backtracking）解決尋找給定字串的所有排序（permutations）問題

ALINK(二十九)：特徵工程（八）特徵組合與交叉（三）Hash Cross特徵 (HashCrossFeatureBatchOp)

ALINK(三十九)：模型評估（四）多標籤分類評估 (EvalMultiLabelBatchOp)

讀書筆記-JavaScript面向物件程式設計（二）

讀書筆記-JavaScript面向物件程式設計（一）

讀書筆記-JavaScript面向物件程式設計（三）

MySQL筆記3：外來鍵（瞭解），DML語言

ISLR讀書筆記十六：最大邊際分類器（maximal margin classifier）

C#資料結構與算法系列（十二）：遞迴（Recursion）

Hadoop基礎（二十九）：資料清洗（ETL）（二）複雜解析版

MySQL學習筆記九：索引

Flink例項（三十九）：狀態管理（十）配置checkpoint

《深度學習入門：基於Python的理論與實現》讀書筆記02：其他

《深度學習入門：基於Python的理論與實現》讀書筆記01：感知機

《計算機是怎樣跑起來的》讀書筆記一：計算機的三大原則

Oracle學習筆記九：表空間與資料檔案管理

《計算機是怎麼跑起來的》讀書筆記二：一臺簡易的微型計算機和機器語言

ISLR讀書筆記九：自助法（bootstrap）

相關推薦