詳解stacking過程

阿新 • • 發佈：2019-01-15

之前一直對stacking一知半解，找到的資料也介紹的很模糊。。所以有多看了幾篇文章，然後來此寫篇部落格，加深一下印象，順便給各位朋友分享一下。

stacking的過程有一張圖非常經典，如下：

雖然他很直觀，但是沒有語言描述確實很難搞懂。

上半部分是用一個基礎模型進行5折交叉驗證，如：用XGBoost作為基礎模型Model1，5折交叉驗證就是先拿出四折作為training data，另外一折作為testing data。注意：在stacking中此部分資料會用到整個traing set。如：假設我們整個training set包含10000行資料，testing set包含2500行資料，那麼每一次交叉驗證其實就是對training set進行劃分，在每一次的交叉驗證中

training data將會是8000行，testing data是2000行。

每一次的交叉驗證包含兩個過程，1. 基於training data訓練模型；2. 基於training data訓練生成的模型對testing data進行預測。在整個第一次的交叉驗證完成之後我們將會得到關於當前testing data的預測值，這將會是一個一維2000行的資料，記為a1。注意！在這部分操作完成後，我們還要對資料集原來的整個testing set進行預測，這個過程會生成2500個預測值，這部分預測值將會作為下一層模型testing data的一部分，記為b1。因為我們進行的是5折交叉驗證，所以以上提及的過程將會進行五次，最終會生成針對testing set資料預測的5列2000行的資料a1,a2,a3,a4,a5，對testing set的預測會是5列2500行資料b1,b2,b3,b4,b5。

在完成對Model1的整個步驟之後，我們可以發現a1,a2,a3,a4,a5其實就是對原來整個training set的預測值，將他們拼湊起來，會形成一個10000行一列的矩陣，記為A1。而對於b1,b2,b3,b4,b5這部分資料，我們將各部分相加取平均值，得到一個2500行一列的矩陣，記為B1。

以上就是stacking中一個模型的完整流程，stacking中同一層通常包含多個模型，假設還有Model2: LR，Model3：RF，Model4: GBDT，Model5：SVM，對於這四個模型，我們可以重複以上的步驟，在整個流程結束之後，我們可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩陣。

在此之後，我們把A1,A2,A3,A4,A5並列合併得到一個10000行五列的矩陣作為training data，B1,B2,B3,B4,B5並列合併得到一個2500行五列的矩陣作為testing data。讓下一層的模型，基於他們進一步訓練。

以上即為stacking的完整步驟！

詳解stacking過程

詳解stacking過程

Cloudera Manager 5.12.0圖文詳解安裝過程

Hadoop1.x: 詳解Shuffle過程---map和reduce資料互動的關鍵

阿里雲系列——7.阿里雲IIS系列詳解（過程+通用+最新）

模型融合Stacking詳解/Stacking與Blending的區別

MapReduce:詳解Shuffle過程

Nginx實現集群的負載均衡配置過程詳解

使用HeartBeat實現高可用HA的配置過程詳解

OC學習小結之ios運行過程詳解

storm集群部署和配置過程詳解

結合http詳解基於域名的虛擬主機訪問詳細原理及過程

TCP協議的3次握手與4次揮手過程詳解

轉-Linux啟動過程詳解（inittab、rc.sysinit、rcX.d、rc.local）

TCP數據傳輸過程詳解

嵌入式開發學習（2）<S5PV210啟動過程詳解>

linux--系統啟動及安裝過程詳解

HBase寫過程詳解

JVM類加載機制詳解（一）JVM類加載過程

Mysql 存儲過程實例詳解

Mysql加鎖過程詳解

詳解stacking過程

相關推薦