模型融合策略：開發樹模型輸出葉子節點作為特徵到迴歸器或者分類器的類

阿新 • • 發佈：2018-12-10

from sklearn.base import BaseEstimator,ClassifierMixin,RegressorMixin
from sklearn.preprocessing import OneHotEncoder
import numpy as np

class TreeLeaf(BaseEstimator,ClassifierMixin,RegressorMixin):
    """
    樹模型和其他模型的結合:樹模型輸出的葉子節點當成特徵輸入到其他模型中
    """
    def __init__(self,treeModel=[],metaModel=[],n_estimators=[],goal=" 
regression"):
        self.treeModel = treeModel
        self.metaModel = metaModel   
        self.n_estimators = n_estimators
        self.goal = goal
    
    def fit(self,X,y):
        self.best_treemodel = [] #用於儲存訓練引數後的tree模型   
        self.best_metamodel = [] #用於儲存訓練引數後的meta模型 
        self.leaf_list  = [] # 
用於儲存葉子節點
        
        for model in self.treeModel:   
            
            model_param = model.fit(X,y) #得到訓練引數後的模型
            self.best_treemodel.append(model_param)
            
            leaf = model_param.apply(X)  #輸出葉子
            self.leaf_list.append(leaf)
           
        #對葉子節點進行拼接 

        leaf_matrix = np.concatenate(self.leaf_list,axis=1)
        
        
        #對葉子節點進行one_hot編碼
        self.one_hot_encoder = OneHotEncoder()
        x_one_hot = self.one_hot_encoder.fit_transform(leaf_matrix)
        
        #利用metaModel做擬合                  
        for model in self.metaModel:
            model_param = model.fit(x_one_hot,y)
            self.best_metamodel.append(model_param)
        
        return self
    
    def predict(self,X):
        
        leaf_list_pred = []
        
        for model in self.best_treemodel:            
            leaf_list_pred.append(model.apply(X))
            
        leaf_matrix_pred = np.concatenate(leaf_list_pred,axis=1)    
        
        x_one_hot_pred = self.one_hot_encoder.transform(leaf_matrix_pred)
        
        y_pred_list = []
        for model in self.best_metamodel:
            y_pred_list.append(model.predict(x_one_hot_pred))
        
        if self.goal == "regression":
            return sum(y_pred_list,axis=0)
        elif self.goal == "classification":  
            y_pred = np.zeros(X.shape[0])            
            for i,line in enumerate(np.array(y_pred_list).T):
                y_pred[i] = np.argmax(np.bincount(line))
            return y_pred

##################案例測試####################################################
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.datasets import load_iris  
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from lightgbm import LGBMClassifier
 
X,y = load_iris(return_X_y=True)  
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)

treeModel_1 = RandomForestClassifier(n_estimators=20)
treeModel_2 = LGBMClassifier( n_estimators=30)
#treeModel_2 = GradientBoostingClassifier(n_estimators=30)

metaModel_1 = LogisticRegression()
metaModel_2 = SVC()

tl = TreeLeaf(treeModel=[treeModel_1,treeModel_2],metaModel=[metaModel_1,metaModel_2],n_estimators=[20,30],goal="classification")
tl.fit(X_train,y_train)
y_pred = tl.predict(X_test)

accuracy_score(y_test,y_pred)

上述程式碼主要完成了基於多個樹模型的葉子節點輸入到多個分類器或者回歸器的模型融合策略，具有一定的擴充套件性和適應度。後面給出了一個基於隨機深林和lightGBM的測試例項，供大家參考。這種模型融合策略在不同的地方效果不同，關鍵還是特徵工程是否做得更好，該類方法在訓練集上有一定的過擬合傾向。

歡迎評論和給出意見，如果對你有幫助，請給個關注，激勵一下我，謝謝！

模型融合策略：開發樹模型輸出葉子節點作為特徵到迴歸器或者分類器的類

from sklearn.base import BaseEstimator,ClassifierMixin,RegressorMixin from sklearn.preprocessing import OneHotEncoder import numpy as np class TreeLeaf(B

C#開發BIMFACE系列21 服務端API之獲取模型資料6：獲取單模型的樓層資訊

系列目錄【已更新最新開發文章，點選檢視詳細】一個檔案/模型中可能包含多個樓層資訊，獲取樓層資訊對於前端頁面的動態展示非常有幫助。本篇介紹獲取一個檔案/模型中可能包含多個樓層資訊的詳細方法。請求地址：GET https://api.bimface.com

經濟模型研究22：Terra經濟模型評價

Terra是韓國第二大電商公司Tmon發起的去中心化穩定幣專案。 Terra網路設計了兩種幣，一種是穩定幣Terra，一種是股權幣Luna。 Terra的轉賬會按照轉賬金額的一定比例（例如0.2%）收取手續費，這些手續費作為系統的收益，歸Luna的持有者享有。 Terr

C語言二叉樹小練習-先序輸出葉子節點

6-11 先序輸出葉結點（15 分）本題要求按照先序遍歷的順序輸出給定二叉樹的葉結點。函式介面定義： void PreorderPrintLeaves( BinTree BT ); 其中BinTree結構定義如下： typedef struct TNode

二叉樹專題--輸出根節點到所有葉子節點的路徑

1.題目 Given a binary tree, return all root-to-leaf paths. For example, given the following binary tree: 　1 / 　 \ 2　　3 　\

7-4 輸出一棵給定二叉樹的所有葉子節點

//輸出一棵給定二叉樹的所有葉子節點 #include "btree.cpp" void DispLeaf(BTNode *b) { if (b!=NULL) { if (b->lchild==NULL && b->rchild==NUL

【LeetCode & 劍指offer刷題】樹題3：68 樹中兩個節點的最低公共祖先

【LeetCode & 劍指offer 刷題筆記】目錄（持續更新中...） 68 樹中兩個節點的最低公共祖先題目：求樹中兩個結點的最低公共祖先思路：考慮一下幾種情況： 1、該樹為二叉搜尋樹

OpenCV開發筆記（五十五）：紅胖子8分鐘帶你深入瞭解Haar、LBP特徵以及級聯分類器識別過程（圖文並茂+淺顯易懂+程式原始碼）

若該文為原創文章，未經允許不得轉載原博主部落格地址：https://blog.csdn.net/qq21497936原博主部落格導航：https://blog.csdn.net/qq21497936/article/details/102478062本文章部落格地址：https://blog.csdn.net

資料結構先序輸出葉子節點

6-11 先序輸出葉結點（15 point(s)）本題要求按照先序遍歷的順序輸出給定二叉樹的葉結點。函式介面定義： void PreorderPrintLeaves( BinTree BT ); 其中BinTree結構定義如下： typedef str

怎麼判斷一棵樹的所有葉子節點都在同一層

給定一棵樹，怎麼判斷它的所有葉子節點都在同一層，這種情況應該是完全二叉樹的一種特例，如下圖：如果去掉節點6的話，它是一棵完全二叉樹，但是所有的葉子節點不在同一層，下面是層次遍歷的一種方法： #include<iostream> #include<v

求二叉樹最大葉子節點距離(不含全域性變數)

題目: 輸入一顆二叉樹先序遍歷的字串，輸出該二叉樹的最大葉子節點距離分析知，最大的距離要麼是經過根節點的一條路徑，要麼是在左子樹中的一條路徑，或者是在右子樹中的一條路徑。那麼可以知道最大葉子節點的距離是左右子樹的高度和、左子樹最大葉節點距離、右子樹最大葉節點距

利用棧結構實現二叉樹的非遞迴遍歷，求二叉樹深度、葉子節點數、兩個結點的最近公共祖先及二叉樹結點的最大距離

原文地址：http://blog.csdn.net/forbes_zhong/article/details/51227747 利用棧實現二叉樹的非遞迴遍歷，並求二叉樹的深度、葉子節點數、兩個節點的最近公共祖先以及二叉樹結點的最大距離，部分參考《劍指offer》這本書

C#開發BIMFACE系列27 服務端API之獲取模型資料12：獲取構件分類樹

系列目錄【已更新最新開發文章，點選檢視詳細】 BIMFACE官方示例中，載入三維模型後，模型瀏覽器中左上角預設提供了“目錄樹”的功能，清晰地展示了模型的完整構成及上下級關係。本篇介紹如何獲取單個模型的構件分類樹資訊

Java開發架構篇：DDD模型領域層決策規則樹服務設計

作者：小傅哥部落格：[https://bugstack.cn](https://bugstack.cn) >沉澱、分享、成長，讓自己和他人都能有所收穫！ ## 一、前言在上一章節介紹了領域驅動設計的基本概念以及按照領域驅動設計的思想進行程式碼分層，但是僅僅只是從一個簡單的分層結構上依然沒法理解D

Odoo(OpenERP)開發實踐：數據模型學習

content 外部 -m 數據庫頁面 ext 哪些 dsm crud 作者：蘇州-微塵 Odoo中，在Python類裏定義的模型及字段信息，可在系統中直接查看。為用戶開啟技術特性權限後，就可以通過菜單 [設置->技術->數據結構->模型] 進入列表

利用KNIME建立Spark Machine learning 模型 1：開發環境搭建

大數據分析 KNIME Machine Learning Spark 建模１、Knime Analytics　安裝從官方網站下載合適的版本　https://www.knime.com/downloads 將下載的安裝包在安裝路徑解壓　https://www.knime.com/insta

基於模型融合的推薦系統實現(2)：迭代式SVD分解

SVD演算法的原理網路上也有很多,不再細說了,關鍵是我們得到的資料是不完整的資料,所以要算SVD就必須做一次矩陣補全。補全的方式有很多,這裡推薦使用均值補全的方法(用每一行均值和每一列均值的平均來代替空白處)，然後可以計算SVD,作PCA分析,然後就可以得到預測結果。但是我們這裡有

基於模型融合的推薦系統實現(1)：基於SGD的PMF

(1)PMF演算法 PMF的基本的思路,就是定義兩個基本的引數W,U,然後對於任意一個組合(u,m),利用 Wi∗Uj W^i*U^j,來獲取預測值。這些基本的演算法思路網上很多,就不細說了。簡單說一下程式 [0]:一開始我們要將訓練資料劃分為3部分,第一部

ml課程：模型融合與調優及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。這篇文章主要介紹模型融合及引數調優相關內容，以及《百面機器學習》上關於模型評估、整合相關內容，最後還有相關案例程式碼。先放一張大家都比較熟悉的圖：這是模型選擇的一個流程圖，可以作為相關的參考。模型評估：評估

（三）提升樹模型：Lightgbm原理深入探究

本篇部落格是提升樹模型部落格的第三篇文章，也是最後一篇文章。第一篇介紹GBDT的部落格可以參看這裡。第二篇介紹Xgboost的部落格可以參看這裡。本篇部落格主要講解輕量級的提升樹模型-LightGBM。 LightGBM的資料網上也出現很多，但是講解的都很淺，大部分都是從官方文

模型融合策略：開發樹模型輸出葉子節點作為特徵到迴歸器或者分類器的類

相關推薦