模型融合—Stacking初涉

阿新 • • 發佈：2018-12-15

最近在學習kaggle baseline中遇到了，好撐kaggle大殺器的stacking，簡單來說，他就是整合學習的一種方法，如果你還沒有了解過這個，請點選以下兩篇博文，進行掃盲：大話機器學習之STACKing,一個讓諸葛亮都吃癟的神技（看名字這一篇就一定通俗易懂）模型融合：bagging、Boosting、Blending、Stacking （這篇呢，就抓主要特點介紹了集中整合學習的方法，重點看看stacking的那個圖0哦）

談談實現

以前寫ML的東西，都是注重調庫啊，什麼的，現在是不行了，演算法崗要難死人了，所以那些演算法，該自己實現的都要自己實現一遍啊～

實現stacking方法

#!/usr/bin/env python
# coding: utf-8

import numpy as np
from sklearn.model_selection import KFold

# 實現stacking方法
def get_stacking(clf,x_train,y_train,x_test,n_folds=10):
    '''
    使用交叉驗證法得到次級訓練集
    輸入資料型別為numpy.ndarray
    '''
    train_num,test_num = x_train.shape[0],x_test.shape[0]
    second_level_train_set = 
 np.zeros((train_num,))
    second_level_test_set = np.zeros((test_num,))
    
    test_nfolds_sets = np.zeros((test_num,n_folds))
    kf = KFold(n_splits=n_folds)
    
    # 訓練集/驗證集
    for i,(train_index,test_index) in enumerate(kf.split(x_train)):
        x_tra,y_tra = x_train[train_index],y_train[ 
train_index]
        x_tst,y_tst = x_train[test_index],y_train[test_index]
        
        clf.fit(x_tra,y_tra)
        
        second_level_train_set[test_index] = clf.predict(x_tst)
        test_nfolds_sets[:,i] = clf.predict(x_test)
    second_level_test_set[:] = test_nfolds_sets.mean(axis=1)
    
    return second_level_train_set,second_level_test_set

# 使用五個分類演算法
from sklearn.ensemble import (RandomForestClassifier,AdaBoostClassifier,GradientBoostingClassifier,ExtraTreesClassifier)
from sklearn.svm import SVC

rf_model = RandomForestClassifier()
adb_model = AdaBoostClassifier()
gdbc_model = GradientBoostingClassifier()
et_model = ExtraTreesClassifier()
svc_model = SVC()

# 使用train_test_split來製造一些人為的資料
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
train_x,test_x,train_y,test_y = train_test_split(iris.data,iris.target,test_size=0.2)

train_sets = []
test_sets = []

for clf in [rf_model,adb_model,gdbc_model,et_model,svc_model]:
    train_set,test_set = get_stacking(clf,train_x,train_y,test_x)
    train_sets.append(train_set)
    test_sets.append(test_set)

meta_train = np.concatenate([reslut_set.reshape(-1,1) for reslut_set in train_sets],axis=1)
meta_test = np.concatenate([y_test_set.reshape(-1,1) for y_test_set in test_sets],axis=1)

# 使用決策樹作為次級分類器
from sklearn.tree import DecisionTreeClassifier
dt_model = DecisionTreeClassifier()
dt_model.fit(meta_train,train_y)
df_predict = dt_model.predict(meta_test)

print(df_predict)

構造stacking類

# 構造stacking類
from sklearn.model_selection import KFold
from sklearn.base import BaseEstimator,RegressorMixin,TransformerMixin,clone
import numpy as np

class StackingAveragedModels(BaseEstimator,RegressorMixin,TransformerMixin):
    def __init__(self,base_models,meta_model,n_folds=5):
        self.base_models_ = base_models
        self.meta_model_ = meta_model
        self.n_folds = n_folds
        
    # 將原來的模型clone出來並實現fit功能
    def fit(self,X,y):
        self.base_models = [list() for x in self.base_models]
        self.meta_model = clone(self.meta_model)
        kfold = KFold(n_splits=self.n_folds,shuffle=True,random_state=156)
        
        # 對於每個模型，使用交叉驗證的方法來訓練初級學習器，並且得到次級訓練集
        out_of_fold_predictions = np.zeros((X.shape[0],len(self.base_models)))
        
        for i,model in enumerate(self.base_models):
            # 訓練&驗證
            for train_index,holdout_index in kfold.split(X,y):
                self.base_models_[i].append(instance)
                instance = clone(model)
                instance.fit(X[train_index],y[train_index])
                y_pred = instance.predict(X[holdout_index])
                out_of_fold_predictions[holdout_index,i] = y_pred
                
        # 使用次級訓練集來訓練次級資料
        self.meta_model_.fit(out_of_fold_predictions,y)
        return self
    
    # predict的時候只需要用這些學習器構造我們的次級預測資料集並且進行預測就可以了
    def predict(self,X):
        meta_features = np.column_stack([
            np.column_stack([model.predict(X) for model in base_models]).mean(axis=1)
            for base_models in base_models_
        ])
        
        return self.meta_model_.predict(meta_features)

閒扯

給自己定的學習時間是996，希望提高效率的同時，能把難點逐漸攻克。不知道明年能找到好工作不？想去北京網際網路。

模型融合—Stacking初涉

最近在學習kaggle baseline中遇到了，好撐kaggle大殺器的stacking，簡單來說，他就是整合學習的一種方法，如果你還沒有了解過這個，請點選以下兩篇博文，進行掃盲：大話機器學習之STACKing,一個讓諸葛亮都吃癟的神技（看名字這一篇就一定

模型融合stacking與blending

1.stacking 給定資料集\(D\)，首先將資料集劃分為訓練集\(D_{train}\)和驗證集\(D_{valid}\),然後將訓練集劃分為k份，記為\(D_{train}^1,\cdots,D_{train}^k\)。用其中的k-1份訓練一個基模型並對剩餘的一份進

資料比賽大殺器----模型融合(stacking&blending)（轉載）

感謝博主分享原文地址–寫於 2017-01-12 參考文獻連結漢語版翻譯如下 Kaggler的“實踐中模型堆疊指南” 介紹堆疊（也稱為元組合）是用於組合來自多個預測模型的資訊以生成新模

模型融合—— stacking詳細講解

stacking的過程有一張圖非常經典，如下：雖然他很直觀，但是沒有語言描述確實很難搞懂。上半部分是用一個基礎模型進行5折交叉驗證，如：用XGBoost作為基礎模型Model1，5折交叉驗證就是先拿出四折作為training data，另外一折作為testin

模型融合Stacking詳解/Stacking與Blending的區別

深度學習模型融合stacking

use get frame positive rate ict print pri can 當你的深度學習模型變得很多時，選一個確定的模型也是一個頭痛的問題。或者你可以把他們都用起來，就進行模型融合。我主要使用stacking和blend方法。先把代碼貼出來，大家可以看一下

ML - 貸款使用者逾期情況分析4 - 模型融合之Stacking

文章目錄模型融合之Stacking (判定貸款使用者是否逾期) 1. 理論介紹 1.1 系統解釋 1.2 詳細解釋 2. 程式碼 2.1 調包實現 2.2 自己實現

模型融合：stacking&blending

對於機器學習和深度學習來說，用單模型的效果往往都沒有進行模型融合後的效果好。對模型來說，我們需要選擇具有多樣性、準確性的模型，對於融合的方式來說也有很多種，比如最簡單的取平均或者投票法就是一種。這裡主要講一下stacking和blending，二者都是用了兩層的模型。

模型融合之stacking方法

之前一直對stacking一知半解，找到的資料也介紹的很模糊。所以有多看了幾篇文章，然後來此寫篇部落格，加深一下印象，順便給各位朋友分享一下。stacking的過程有一張圖非常經典，如下：雖然他很直觀，但是沒有語言描述確實很難搞懂。上半部分是用一個基礎模型進行5折交叉驗證，如

模型融合之stacking&blending原理及程式碼

目錄 1.1 概念 2.1 概念 4 參考文獻模型融合的基本思想就是通過對多個單模型融合以提升整體效能。平常自己一般都使用最簡單的方法，比如說對分類問題，採用voting，對迴歸問題，採用加權averaging。今天簡單介紹下stacking

【Machine Learning】模型融合之Stacking

一、Stacking簡介 Stacking(stacked generalization)是在大資料競賽中不可缺少的武器，其指訓練一個用於組合(combine)其他多個不同模型的模型，具體是說首先

深度學習模型stacking模型融合python代碼，看了你就會使

shuffle The max and ots shape onf 第一個求平均值話不多說，直接上代碼 1 def stacking_first(train, train_y, test): 2 savepath = ‘./stack_op{}_dt

zillow中模型融合的方法及其代碼

ldo ict ctr gis 很難常見 ble ilo mis 在機器學習這個領域，尤其是做多媒體（聲音、圖像、視頻）相關的機器學習方法研究，會涉及很多特征、分類模型（分類任務）的選擇。以聲音識別為例，常見的特征有MFCC、LPCC、spectrogram-like f

基於模型融合的推薦系統實現(3):模型融合

基本思路很簡單，最小二乘法就好了: 我們假設兩個演算法得到的結果權重分別是a,b利用最小二乘法和我們分出來的第二部分資料就可以獲取a,b使得誤差最小。其實最小二乘法就是求一個廣義的逆即可。最後的RMSE比起單一的模型有所提高,變成了(0.86~~~~) import numpy

基於模型融合的推薦系統實現(2)：迭代式SVD分解

SVD演算法的原理網路上也有很多,不再細說了,關鍵是我們得到的資料是不完整的資料,所以要算SVD就必須做一次矩陣補全。補全的方式有很多,這裡推薦使用均值補全的方法(用每一行均值和每一列均值的平均來代替空白處)，然後可以計算SVD,作PCA分析,然後就可以得到預測結果。但是我們這裡有

基於模型融合的推薦系統實現(1)：基於SGD的PMF

(1)PMF演算法 PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 Wi∗Uj W^i*U^j,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式 [0]:一開始我們要將訓練資料劃分為3部分,第一部

keras實現多個模型融合（非keras自帶模型，這裡以3個自己的模型為例）

該程式碼可以實現類似圖片的效果，多個模型採用第一個輸入。圖片來源：https://github.com/keras-team/keras/issues/4205 step 1:重新定義模型(這是我自己的模型，你們可以用你們自己的)，與預訓練不一樣，這裡定義模型inp

keras實現densenet和Xception的模型融合

我正在參加天池上的一個競賽，剛開始用的是DenseNet121但是效果沒有達到預期，因此開始嘗試使用模型融合，將Desenet和Xception融合起來共同提取特徵。程式碼如下： def Multimodel(cnn_weights_path=None,all_weights_path=N

ml課程：模型融合與調優及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。這篇文章主要介紹模型融合及引數調優相關內容，以及《百面機器學習》上關於模型評估、整合相關內容，最後還有相關案例程式碼。先放一張大家都比較熟悉的圖：這是模型選擇的一個流程圖，可以作為相關的參考。模型評估：評估

客戶貸款逾期預測[7] - 模型融合

任務用你目前評分最高的模型作為基準模型，和其他模型進行stacking融合，得到最終模型及評分。實現 #簡單調包實現 from mlxtend.classifier import StackingCVClassi

模型融合—Stacking初涉

談談實現

實現stacking方法

構造stacking類

閒扯

相關推薦