樹模型比較（二）

阿新 • • 發佈：2018-12-08

主要是看看隨機森林，GBDT，XGBoost這些基於樹的整合方法之間的異同。

隨機森林（RF）

Bagging思想
利用Boostrap取樣，從樣本中選取不同的集合構造決策樹，整個過程可以並行；
Boostrap取樣方式帶來了一個優勢，能留下32%的資料從未被用過，可以用來進行包外估計
兩種擾動方式，樣本擾動和屬性擾動，增加了模型的多樣性以及最終的泛化能力
最終結果的得出：分類問題用投票，迴歸問題用平均
隨機森林由於行取樣增加擾動，所以每次都是完全建樹，分到不能分為止，而且最後不用剪枝
偏差方差分解角度，Bagging降低方差

GBDT

Boosting方法，與Bagging相區別，序列化建樹過程，基學習器之間具有強依賴性
AdaBoost也是Boosting方法，區別在於AdaBoost每次是通過改變樣本的權重進行學習，而GBDT中是樣本是沒有權重的
GBDT可以認為是函式空間的梯度下降，每次尋找使損失函式下降最快的方向，這也是梯度的由來。但是其本質是擬合前面得到的模型的殘差
GBDT的並行不可以從樹的層面做，但是在特徵選擇層面是可以的
GBDT中每一棵樹都是迴歸樹（CART）
降低偏差。在訓練的時候，設定樹的深度很小的時候，也可以達到很好的效果。
shrikage，小步逼近，防止過擬合

XGBoost

基於GBDT的框架，Boosting思想
基學習器可以選擇樹（gbtree），也可以使用線形分類器（gblinear）
自帶正則的目標函式，L1+L2，L1是對葉結點數量的限制，L2是對葉結點輸出值的限制，防止過擬合
通過利用泰勒的二階展開，對目標函式進行近似，從而提出了一種應用更為廣泛的分裂評價指標，凡是目標函式可以進行二階泰勒展開的都可以用，level-wise
支援shrinkage,列取樣，行取樣，都可以防止過擬合，通常列取樣效果好於行取樣
可以處理缺失值，通過學習尋找最優的劃分方向
並行加速是通過對特徵值進行排序/直方圖，事先計算好存為block，以後用的時候直接查表即可

樹模型比較（二）

主要是看看隨機森林，GBDT，XGBoost這些基於樹的整合方法之間的異同。隨機森林（RF） Bagging思想利用Boostrap取樣，從樣本中選取不同的集合構造決策樹，整個過程可以並行； Boostrap取樣方式帶來了一個優勢，能留下32%的資料從未被

隱馬爾科夫模型HMM（二）前向後向算法評估觀察序列概率

流程來看遞推 limits its 可能基本通過如何　　　　隱馬爾科夫模型HMM（一）HMM模型　　　　隱馬爾科夫模型HMM（二）前向後向算法評估觀察序列概率　　　　隱馬爾科夫模型HMM（三）鮑姆-韋爾奇算法求解HMM參數（TODO）　　　　隱馬爾科夫模型

Java中String、StringBuilder、StringBuffer常用源碼分析及比較（二）：StringBuilder、StringBuffer源碼分析

string類型 character private 字符代碼 less pri des over StringBuilder：一、構造方法： /** * Constructs a string builder with no characters in i

資料結構-樹狀陣列（二）

複習筆記-樹狀陣列（二）樹狀陣列（一）略微進階的操作在樹狀陣列（一）中，身為打線段樹要耗費好長時間（其實都不一定能揹著打出來）的蒟蒻，我安利了一波樹狀陣列，並且介紹了區間查詢和單點修改的基本操作。那麼，對基礎的樹狀陣列進行一些修改，結合差分，就可以同時進行區間修改和單點查詢。差分陣列儲存方

決策樹--學習筆記（二）

決策樹分割屬性選擇決策樹演算法是一種“貪心”演算法策略，只考慮在當前資料特徵的情況下的最好分割方式，不能進行回溯操作。對於整體的資料集而言，按照所有的特徵屬性進行劃分操作，對於所有劃分操作的結果集“純度”進行比較，選擇“純度”越高的特徵屬性作為當前需要分割的資料集進行分割操作，持續迭代

決策樹-剪枝演算法（二）

ID3演算法的的原理，它是以資訊熵為度量，用於決策樹節點的屬性選擇，每次優選資訊量最多的屬性，以構造一顆熵值下降最快的決策樹，到葉子節點處的熵值為0，此時每個葉子節點對應的例項集中的例項屬於同一類。理想的決策樹有三種： 1.葉子節點數最少 2.葉子加點深度最小 3.葉子節點數最少且葉子

網路框架比較（二）

自己重新整理了一份網路框架比較，對比了多個框架。目前使用的比較多的volley、okhttp、retrofit，從官網找了資料，根據demo和總結，最終形成了表格。專案中volley部分機型、特定網路

Java記憶體模型FAQ（二）其他語言，像C++，也有記憶體模型嗎？

譯者：Alex 大部分其他的語言，像C和C++，都沒有被設計成直接支援多執行緒。這些語言對於發生在編譯器和處理器平臺架構的重排序行為的保護機制會嚴重的依賴於程式中所使用的執行緒庫（例如pthreads），編譯器，以及程式碼所執行的平臺所提供的保障。原文 Do other languag

django-web開發框架-模型類（二）

設計介紹本示例完成“圖書-英雄”資訊的維護，需要儲存兩種資料：圖書、英雄圖書表結構設計：表名：BookInfo 圖書名稱：btitle 圖書釋出時間：bpub_date 英雄表結構設計：表名：HeroIn

隱馬爾可夫模型HMM（二）概率計算問題

摘自 1.李航的《統計學習方法》 2.http://www.cnblogs.com/pinard/p/6955871.html 一、概率計算問題上一篇介紹了概率計算問題是給定了λ（A，B，π），計算一個觀測序列O出現的概率，即求P（O|λ）。用三種方法，直接計演算法，前向演算法，

SpringMVC_10_ 處理模型資料（二）之 ModelAttribute

SpringMVC_10_ 處理模型資料（二）之 ModelAttribute 問題描述：當我想要完成一個修改操作，條件是有一個欄位不能被修改。比如說錄入的時間不能被修改。假如我們有三個欄位，因為錄入的時間欄位不能被修改，剩下兩個欄位。一貫的操作是 new 一個User,給它附上兩

決策樹學習筆記（二）

決策樹學習筆記(二) 接著上一篇接著上一篇筆記決策樹學習筆記(一)繼續學習，上一篇主要是對決策模型的初步認識和理解以及特徵選擇的一些規則；接下去就是決策樹演算法的具體實現和優化，包括決策樹生成、剪枝以及分類與迴歸樹(CART)詳解。分類與迴歸樹模型

裝置樹學習之（二）點燈

開發板：tiny4412SDK + S702 + 4GB Flash 要移植的核心版本：Linux-4.4.0 （支援device tree） u-boot版本：友善之臂自帶的 U-Boot 2010.12 busybox版本：busy

機器學習：結點的實現，決策樹程式碼實現（二）

文章目錄楔子定義變數：定義方法獲得劃分的feature 生成結點停止條件及其處理 fit() 生成樹剪枝楔子前面已經實現了各種資訊量的計算，那麼我們劃分的基本有了，那

Spring MVC 中“攔截器”處理模型資料（二） @ModelAttribute

在這裡強烈建議看看我之前寫的幾篇關於SpringMVC的部落格，都是串通的。 @ModelAttribute這個是SpringMVC中處理模型資料的最難也是最重要的點。相當於以前Struct的攔截器。

equals和==方法比較（二）--Long中equals原始碼分析

接上篇，分析equals方法在Long包裝類中的重寫，其他類及我們自定義的類，同樣可以根據需要重新equals方法。 equals方法定義 equals方法是Object類中的方法，java中所有的物件均繼承自Object類，也就繼承了equals方法，下面是Object類中equals方法的實現，

軟體開發模型介紹（二）

1.螺旋模型螺旋模型兼顧了快速原型的迭代的特徵以及瀑布模型的系統化與嚴格監控，引入了其他模型不具備的風險分析，使軟體在無法排除重大風險時有機會停止。該模型很大程度上是一種風險驅動的方法體系，因為在每次迭代前，都必須先進行風險評估，適合大型的昂貴的系統級的軟體應用。圖中的四個象

D3D11和D3D12多執行緒渲染框架的比較（二）

1. 多執行緒的一些基礎知識和問題 1.1. 併發和並行如果你對多執行緒程式設計理解比較深刻的話，那麼首先第一個要搞明白的概念就是“併發”和“並行”的區別，併發很多時候指的是在一個時間

幾種分散式呼叫鏈監控元件的實踐與比較（二）比較

引言：繼上篇《幾種分散式呼叫鏈監控元件的實踐與比較（一）實踐》後，本篇將會講下幾種APM選型的比

幾種協議比較（二）

以下是上述協議的簡單介紹：BSD開源協議 BSD開源協議是一個給於使用者很大自由的協議。基本上使用者可以”為所欲為”,可以自由的使用，修改原始碼，也可以將修改後的程式碼作為開源或者專有軟體再發布。但”為所欲為”的前提當你釋出使用了BSD協議的程式碼，或則以BSD協議程式碼為基礎做二次開發自己的產品時，需要滿

樹模型比較（二）

隨機森林（RF）

GBDT

XGBoost

相關推薦