秋招材料整理——整合學習

阿新 • • 發佈：2018-12-18

一、概念

整合方式主要有3種：boosting和bagging 和 stacking
整合學習：將多個弱學習器結合起來組成一個強學習器
- 個體學習器一般選擇：決策樹，神經網路（整合時可以是同類，也可以是不同類）
- 什麼時候整合效果好於單個學習器？
  “好而不同”，每個都不是特別差，且有一定的多樣性
  證明：假設錯誤率相互獨立，整體學習器的錯誤率為（個體學習器的錯誤率為 ε）：

$P(H(x)\ne f(x))$

$=\sum_{k=0}^{\lfloor T/2\rfloor}(_k^T)(1-\epsilon)^k\epsilon^{T-k}$

= k = 0 \sum ⌊ T / 2 ⌋ (_{k}^{T}) (1 - ϵ)^{k} ϵ^{T - k}

$\le exp(-\frac{1}{2}T(1-2\epsilon)^2)$

學習器數目 T 逐漸增大，整個學習器的錯誤率將指數級下降，甚至最終趨向於零

二、boosting和bagging 區別

以隨機森林和adaboost為例：

個體學習器間依賴關係上：
Bagging，隨機森林：個體之間不存在強依賴關係，各個預測函式可並行生成。
Boosting：個體學習器間存在強依賴，必須序列生成。後一個模型引數需要前一輪的結果.
樣本選擇上：
Bagging：訓練集是隨機有放回選取的，各輪訓練集之間是獨立的.
Boosting：訓練集不變，只是樣例的權重發生變化.權值是根據上一輪的分類結果進行調整.

樣例權重：
Bagging：均勻取樣，每個樣例權重相等
Boosting：根據錯誤率不斷調整樣例的權值，錯誤率越大則權重越大.
預測函式：
Bagging：所有預測函式的權重相等.
Boosting：每個弱分類器都有相應的權重，對於分類誤差小的分類器會有更大的權重

三、隨機森林

（代表整合學習技術水平的方法）（並聯，投票）

樣本產生：隨機有放回抽樣（第一個隨機）
屬性選擇：基學習器是決策樹，訓練決策樹時引入隨機屬性選擇（第二個隨機）（選劃分屬性時，先從屬性集中隨機選擇一個包含k（推薦 $log_2d$ ）個屬性的子集，然後再從子集中選使Gini值最小的分割點作為最優屬性用於劃分）

效率常優於Bagging，不易過擬合；噪音比較大時會過擬合

四、boosting（串聯）

根據初始訓練資料訓練出第一個基學習器；
根據基學習器的表現調整樣本，更多關注之前學習器做錯的樣本，訓練下一個基學習器；
重複T 次，將 T 個學習器加權結合。
優點：表達能力強，不需要做複雜的特徵工程和特徵變換
缺點：串聯，不好並行化，計算複雜度高，同時不太適合高維

五、GBDT

GB中單個學習器為決策樹（迴歸樹：雖然它常用於預測，而不是分類）
GBDT有兩種，一種是殘差學習，一種是負梯度代替殘差，為啥用負梯度近似殘差？
GBDT每次迭代是對之前模型損失函式的梯度下降方向（即偽殘差）進行學習，計算出使下一步損失函式取值最小的偽殘差，從而得出下一步模型，殘差只是在loss用最小二乘時的一個特例，對 $(x-y)^2$ 求梯度剛好就是 $2(x-y)$ ，換成其他loss就不對了，所以，殘差學習只是一個特例，負梯度才是通用的

六、adaboost

=指數損失（ $e^{-f(x)H(x)}$ ）+boosting（加法模型）+的前向分步演算法
（指數損失達到最小時分類錯誤率也將最小化）
預測模型是基學習器的加權平均值： $H(x)=\sum_{t=1}^T\alpha_th_t(x)$
每一次迭代的弱學習器怎麼學？
改變訓練資料的權值（概率分佈）：提高被錯誤分類的樣本權值，降低正確的 $D_m=D_{m-1}\frac{1-e_m}{e_m}$ ( $e_m$ 被誤分類樣本的權值之和)
選取讓誤差率最低的閾值來設計基本分類器
弱分類器權值怎麼確定？
加大分類誤差率小的弱分類器權值，減小大的 $\alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m}$ （底數是 $e,e_m$ 為誤差率）
優點：不會很容易出現過擬合現象

七、 GBDT vs. adaboost 區別

名字不同是因為損失函式不同，也就是定位模型不足的方法不同
GBDT是通過梯度定位的，而adaboost是通過提高被錯誤分類的樣本權值來定位的
AdaBoost對異常點（outlier）比較敏感，而GBDT通過引入bagging思想、加入正則項等方法能夠有效地抵禦訓練資料中的噪音，具有更好的健壯性。

八、xgboost

參考：推導

1、（最小化）目標函式=損失函式（可自定義，只需滿足二次可微）+ 正則化項（與葉子節點的數量和值有關）

目標函式： $I_j$ 為所有被劃分到葉子節點j的訓練樣本的集合
$obj^{(t)}\approx \sum_{i=1}^n[g_iw_{q(x_i)}+\frac{1}{2}h_iw_{q(x_i)}^2]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^Tw_j^2$

$=\sum_{j=1}^T[(\sum_{i\in I_j}g_i)w_j+\frac{1}{2}(\sum_{i\in I_j}h_i+\lambda)w_j^2]+\gamma T$

$=\sum_{j=1}^T[G_jw_j+\frac{1}{2}(H_j+\lambda)w_j^2]+\gamma T$

損失函式：除了一階導還用二階導，對每一次的損失函式做二階泰勒展開，展開之後刪去常數項，會發現目標函式與損失函式的形式無關，所以可以自定義，只需滿足二次可微
（ $g_i$ 是損失函式一階導, $h_i$ 是二階, $f_t(x_i)$ 第t棵樹第i個葉子節點的值）
$\sum_{i=1}^n[g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega(f_t)$
正則化作用：
- 訓練資料可能有誤，未必涵蓋了所有種類的樣本
- 控制模型複雜度，對引數施加一定的控制，防止引數走向極端，防止過擬合
- $\gamma$ ：人為加入的閾值，使xgboost在優化目標函式的同時做了預剪枝
  $\lambda$ ：L2的係數，相當於對leaf score做了平滑，防止過擬合
  $\Omega(f)=\gamma T+\frac{1}{2}\lambda \sum_{j=1}^Tw_j^2$

2、模型：一堆CART樹
$\hat{y_i}=\sum_{k=1}^Kf_k(x_i),f_k\in \mathcal{F}$

（為什麼用CART樹而不是普通的決策樹：CART樹的葉子節點對應的值是一個實際的分數，而非一個確定的類別，有利於實現高效的優化演算法）
3、如何找樹的結構：挨層判斷切分點。對每個確定切分點，衡量切分好壞的標準如下：
$Gain=\frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+\frac{G_R^2}{H_R+\lambda}-\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}]- \gamma$

秋招材料整理——整合學習

一、概念整合方式主要有3種：boosting和bagging 和 stacking 整合學習：將多個弱學習器結合起來組成一個強學習器個體學習器一般選擇：決策樹，神經網路（整合時可以是同類，也可以是不同類）什麼時候整合效果好於單個學習器？ “好而不同”

秋招材料整理——機器學習（比較雜）

一、非平衡資料分類器偏向於多數類：目標是最小化整體錯誤率，少數類起到的作用很小假設代價是相同的資料層面解決非平衡資料：正負樣本都非常少時，用資料合成：SMOTE利用已有樣本生成更多

秋招材料整理——基礎（計算機網等）

一、TCP三次握手 1.過程 1）首先 B 處於 LISTEN（監聽）狀態，等待客戶的連線請求。 2）A 向 B 傳送連線請求報文段，SYN=1，ACK=0，選擇一個初始的序號 x。 3）B 收到連

秋招材料整理——LR

一、整體概述 LR假設資料服從伯努利分佈（零一分佈，二項分佈），通過極大化似然函式的方法，運用梯度下降來求解引數，從而達到將資料二分類的目的。極大似然原理：簡單理解：樣本所展現的狀態便是所有可

秋招材料整理——貝葉斯分類器

一、貝葉斯決策論 1.概念基於概率。對分類任務來說，在所有相關概率均已知的理想情形下，貝葉斯考慮如何基於這些概率和誤判損失來選擇最優的類別標記 λijλ_{ij}λij是一個將真實標記為cjc_

秋招材料整理——聚類

一、效能度量非監督學習，無類別標記。試圖將樣本劃分為若干個不相交子集，稱為“簇” 效能度量：“簇內相似度高”，“簇間相似度低” 外部指標：將聚類結果CCC與某個“參考模型”C∗C*C∗進行比較；預測類別λλλ，參考類別λ∗λ^*λ∗ a=∣SS∣,SS

2019秋招面試題-機器學習部分

一、TF-IDF 有很多不同的數學公式可以用來計算TF-IDF。這邊的例子以上述的數學公式來計算。詞頻 (TF) 是一詞語出現的次數除以該檔案的總詞語數。假如一篇檔案的總詞語數是100個，而詞語“母牛”出現了3次，那麼“母牛”一詞在該檔案中的詞頻就是3/100=0.03。一個計算檔案頻率 (IDF) 的方法

備戰秋招/面試，CS學習筆記。金九銀十你準備好了嗎？

一、資料結構與演算法　　排序演算法、動態規劃、遞迴、回溯法、貪心演算法等。二、Java 　　基本概念、面相物件、關鍵字、基本資料型別與運算、字串與陣列、異常處理、Object通用方法　　資料結構 & 原始碼分析：Ar

【計算機視覺演算法崗面經】“吐血”整理：2019秋招資料

轉自：https://blog.csdn.net/liuxiao214/article/details/83043170 感謝整理，侵刪 //2018/09/27 兵荒馬亂、浩浩蕩蕩的秋招終於差不多要結束了。秋招這段時間真是感慨很多，一時得意一時失意，還要平衡一不小心就來的心理落差

Java開發 2019秋招面經整理

從7月底開始，到10月中旬獲得offer 進入面試流程的包括位元組跳動、招銀科技、百度、Keep、華為、花旗、京東、有贊、去哪兒、拼多多、okcoin，收到的offer有華為、招銀、有贊、去哪兒，其他有一面涼、二面涼以及HR面涼等等。面試中遇到的問題整理如下，僅供參考計算機網路

資料庫以及SQL的一些面試題整理（2018年秋招）

1、MySQL用的挺多，問你一下，innodb的b+樹索引，主鍵索引，聚簇索引有什麼區別。 2、MySQL裡有哪些鎖，行鎖表鎖，樂觀鎖呢，我說了版本號和MVVC，開始問我MVVC。 3、事務的實際場景問題，兩個事務，一個查一個新增，問能否查到新增的，我問他隔

【秋招】京東_資料分析崗_面試題整理

1. 怎麼做惡意刷單檢測分類問題用機器學習方法建模解決，我想到的特徵有： 1）商家特徵：商家歷史銷量、信用、產品類別、發貨快遞公司等 2）使用者行為特徵：使用者信用、下單量、轉化率、下單路徑、瀏覽店鋪行為、支付賬號 3）環境特徵（主要是避免機

【計算機視覺演算法崗面經】“吐血”整理：2019秋招面經

//2018/09/28 當初開始面試時就想著，以後我一定要寫一篇面經，現在是來還願的時候了。首先，嗯，非常感謝牛客平臺，提供了很多資訊啊。而且去年11月曾報名左神的課程，非常感謝左神啊！課程相當值啊，你見過用1分鐘吃完飯接著講課的老師嗎！你見過自己加班加點也要把所有內容都講完

【秋招】騰訊_資料分析崗_面試題整理

1. 二叉樹題目略 2. 層序遍歷演算法題 1）由頂向下逐層訪問 2）可以用佇列儲存樹，每次列印根節點並將左右節點放進佇列 3. 圖論中的最大團、連通分量，然後問圖劃分的演算法略 4. 如何判斷社群活躍度（基於圖），現在想著可

【秋招】今日頭條_資料分析崗_面試題整理

1. 做自我介紹，著重介紹跟資料分析相關的經驗，還有自己為什麼要做資料分析略。 2. 如果次日使用者留存率下降了 5%該怎麼分析 1）首先採用“兩層模型”分析：對使用者進行細分，包括新老、渠道、活動、畫像等多個維度，然後分別計算每個維度下不同使用者的次日留

【秋招】拼多多_資料分析崗_面試題整理

1. 貝葉斯公式複述並解釋應用場景 1）P（A|B) = P(B|A)*P(A) / P(B) 2）如搜尋query糾錯，設A為正確的詞，B為輸入的詞，那麼： a. P(A|B)表示輸入詞B實際為A的概率 b. P(B|A)表示詞A

很全的春招秋招學習筆記

資料庫：正規化第一正規化：資料庫表的每一項都是不可分割的原子資料項，不能是集合。比如班級資訊表裡面不能有班級的學生。第二正規化：在第一正規化的基礎上，所有屬性完全依賴於主鍵，完全依賴就是不能取決於主鍵的一部分第三正規化：在第二正規化的基礎上，消除傳遞依賴，比如學生表裡有學生屬於的班

資料庫相關知識點(秋招整理)

資料庫 1. 資料庫事務的 4 個特性是：原子性、一致性、持續性、隔離性 1) 原子性：事務是資料庫的邏輯工作單位，它對資料庫的修改要麼全部執行，要麼全部不執行。 2) 一致性：事務前後，資料庫的狀態都滿足所有的完整性約束。 3)

2018年Java校園秋招面試題整理

面試是我們每個人都要經歷的事情，大部分人且不止一次，這裡給大家總結最新的2018年面試題，讓大家在找工作時候能夠事半功倍。 1.Switch能否用string做引數？ a.在 Java 7 之前, switch 只能支援byte,short,char,int 或者其對

2017年秋招Java面試高頻面試題（個人整理）

Java基礎：多型（原理、實現）過載和覆蓋抽象類、介面區別 ==、equals()、hashcode()-對於基本型別、引用型別分情況 String原理（原始碼中final實現了其不可變，底層資料結構-char陣列）、StringBuilder-執行緒不安全、StringBuffer執行緒安全（原始碼中

秋招材料整理——整合學習

一、概念

二、boosting和bagging 區別

三、隨機森林

四、boosting（串聯）

五、GBDT

六、adaboost

七、 GBDT vs. adaboost 區別

八、xgboost

相關推薦