學習筆記——提升方法

阿新 • • 發佈：2019-01-15

提升（boosting）方法是一種常用的統計學習方法，應用廣泛且有效。在分類問題中，它通過改變訓練樣本的權重，學習多個分類器，並將這些分類器進行線性組合，提高分類效能。

提升方法AdaBoost演算法

為什麼叫”提升“方法

在概率近似正確（PAC）學習框架中，一個概念，如果存在一個多項式的學習演算法能夠學習它，並且正確率很高，稱這個概念是強可學習的，若正確率僅比隨機猜想略好，稱這個概念是弱可學習的。有趣的是有人證明了強可學習與弱可學習是等價的，那麼，如果發現了弱學習演算法（比較容易找到），就有可能將它提升為強學習演算法。最具代表性的是AdaBoost演算法。

大多數的提升方法都是改變訓練資料的概率分佈（訓練資料的權值分佈），針對不同的訓練資料分佈呼叫弱學習演算法學習一系列弱分類器。這樣，關鍵就在於如何改變訓練資料的權值，以及如何組合這些弱分類器。AdaBoost的做法是提高那些前一輪弱分類器錯誤分類樣本的權值。

AdaBoost演算法

輸入：訓練資料集\(T = \{(x_1,y_1), (x_2, y_2), ..., (x_N,y_N) \}\)，其中\(x_i \in \mathcal{X} \subseteq R^n\)，\(y_i \in \mathcal{Y} = \{-1, +1\}\)；弱學習演算法。

輸出：最終分類器\(G(x)\)

初始化訓練資料的權值分佈\[D_1 = (w_{11}, ...,w_{1i},...,w_{1N}), w_{1i} = \frac{1}{N}, i = 1,2,...,N\]

對\(m = 1,2,...,M\)
a. 使用具有權值分佈\(D_m\)

的訓練資料集學習，得到基本分類器\[G_m(x): \mathcal{X} \rightarrow \{-1, +1\}\] b. 計算\(G_m(x)\)在訓練資料集上的分類誤差率\[e_m = P(G_m(x_i)\neq y_i)=\sum_{i =1}^{N} w_{mi} I(G_m(x_i) \neq y_i)\] c. 計算\(G_x(x)\)的係數\[\alpha_m = \frac{1}{2} \log \frac{1 - e_m}{e_m}\] d. 更新訓練資料集的權值分佈\[D_{m+1} = (w_{m+1,1}, ... ,w_{m+1,i}, ..., w_{m+1,N})\]

\[w_{m+1,i} = \frac{w_{mi}}{Z_m} \exp(-\alpha_m y_i G_m(x_i)), i = 1,2,...,N\]，這裡，\(Z_m\)是規範因子\[Z_m = \sum_{i = 1}^N w_{wi} \exp (-\alpha_m y_i G_m(x_i))\]它使\(D_m\)成為一個概率分佈。（簡單點就是正確的除以\(\alpha\)，錯誤的乘以\alpha，規範因子不要也問題不大吧）

構建基本分類器的線性組合\[f(x) = \sum_{m = 1}^M \alpha_m G_m (x)\]得到最終的分類器\[G(x) = sign(f(x)) = sign(\sum_{m = 1}^M \alpha_m G_m(x))\]

AdaBoost的訓練誤差分析

AdaBoost演算法最終分類器的訓練誤差界為：\[\frac{1}{N} \sum_{i = 1}^N I(G(x_i) \neq y_i) \leq \frac{1}{N} \sum_i \exp (-y_i f(x_i)) = \prod_m Z_m\]

在每一輪選取適當的\(G_m\)使得\(Z_m\)最小，從而使訓練誤差下降最快。
二分類問題AdaBoost的訓練誤差界：\[\prod_{m = 1}^M Z_m = \prod_{m = 1} ^M [2\sqrt{e_m(1-e_m)} ] = \prod _{m=1}^M \sqrt{(1 - 4\gamma_m^2)} \leq \exp (-2\sum_{m=1}^M \gamma_m^2)\]這裡，\(\gamma_m = \frac{1}{2} - e_m.\)
如果存在\(\gamma > 0\)，對所有\(m\)有\(\gamma_m \geq \gamma\)，則\[\frac{1}{N} \sum_{i = 1}^N I(G(x_i) \neq y_i) \leq \exp (-2M\gamma^2)\]
這表明在此條件下，AdaBoost的訓練誤差是以指數速率下降的。

AdaBoost演算法的解釋

可認為AdaBoost演算法是模型為加法模型，損失函式為指數函式，學習演算法為前向分步演算法時的二分類學習方法。可以由前向分步演算法推匯出AdaBoost。

加法模型\[f(x) = \sum_{m = 1}^M \beta_m b(x; \gamma_m)\]，其中，\(b(x; \gamma_m)\)為基函式，\(\gamma_m\)為基函式的引數，\(\beta_m\)為基函式的係數。

每一步中極小化損失函式\[(\beta_m, \gamma_m) = \arg \min_{\beta_m, \gamma_m} \sum_{i = 1}^N L(y_i, f_{m-1}(x_i) + \beta b(x_i; \gamma))\]

提升樹

提升樹是以分類樹或迴歸樹為基本分類器的提升方法。提升樹被認為是統計學習中效能最好的方法之一。

提升樹模型
\[f_M(x) = \sum_{m - 1}^M T(x; \Theta_m)\]其中，\(T(x; \Theta_m)\)表示決策樹；\(\Theta_m\)為決策樹的引數；\(M\)為樹的個數。
提升樹演算法
與AdaBoost類似，對於二分類問題，提升樹演算法只需將AdaBoost中的基本分類器限制為二類分類樹即可。對於迴歸問題，採用以下前向分步演算法：\[f_0(x) = 0\] \[f_m(x) = f_{m-1}(x) + T(x; \Theta_m), m = 1,2,...,M\] \[f_M(x) = \sum_{m=1}^M T(x; \Theta_m)\] 在前向分步演算法的第\(m\)步，給定當前模型\(f_{m-1}(x)\)，需求解\[\hat{\Theta}_m = \arg \min_{\Theta_m} \sum_{i =1}^N L(y_i, f_{m-1}(x_i) + T(x_i; \Theta_m))\]得到第\(m\)棵樹的引數。

當採用平方誤差損失函式時，損失函式化簡為：\[[r - T(x; \Theta_m)]^2\]，其中\[r = y - f_{m-1}(x)\]是當前模型擬合數據的殘差。

迴歸問題的提升樹演算法

初始化\(f_0(x) = 0\)

對\(m = 1, 2, ...,M\)

計算殘差\(r_{mi} = y_i - f_{m-1}(x_i), i = 1, 2, ..., N\)

擬合殘差\(r_{mi}\)學習一個迴歸樹，得到\(T(x; \Theta_m)\)

更新\(f_m(x) = f_{m-1}(x) + T(x; \Theta_m)\)

得到迴歸問題提升樹\[f_M(x) = \sum_{m -1}^M T(x; \Theta_m)\]

梯度提升
當損失函式是平方損失和指數損失函式時，每一步優化是很簡單的。但對一般損失函式而言，不容易。梯度提升（gradient boosting）演算法，利用損失函式的負梯度在當前模型的值\[-[\frac{\partial L(y, f(x_i))}{\partial f(x_i)}]_{f(x) = f_{m -1}(x)}\]作為迴歸問題提升樹演算法中的殘差的近似值，擬合一個迴歸樹。

學習筆記——提升方法

提升方法AdaBoost演算法

AdaBoost的訓練誤差分析

AdaBoost演算法的解釋

提升樹

學習筆記——提升方法

python3學習筆記靜態方法，類方法，屬性方法

effectiveJava學習筆記：方法(二)

effectiveJava學習筆記：方法(一)

精通MVC 5 學習筆記 =========拓展方法

java學習筆記：方法與陣列

大話設計模式學習筆記-工廠方法模式

設計模式學習筆記-工廠方法模式

小川學習筆記-抽象方法與抽象類

整合學習與提升方法

統計學習方法（5）整合學習（提升方法）

python基礎學習筆記——字串方法

MongoDB學習筆記~Update方法更新集合屬性後的怪問題

Scala學習筆記之方法與函式

Python學習筆記——特殊方法

Java學習筆記——構造方法

Andrew Ng機器學習課程之學習筆記---牛頓方法

C++學習筆記24,方法重寫與方法隱藏

C#學習筆記_06_方法&函數

黑馬程式設計師-OC學習筆記-點方法、成員變數作用域以及set方法和get方法@property的綜合題

學習筆記——提升方法

提升方法AdaBoost演算法

AdaBoost的訓練誤差分析

AdaBoost演算法的解釋

提升樹

相關推薦