【Machine Learning】模型融合之Stacking

阿新 • • 發佈：2019-02-18

一、Stacking簡介
Stacking(stacked generalization)是在大資料競賽中不可缺少的武器，其指訓練一個用於組合(combine)其他多個不同模型的模型，具體是說首先我們使用不同的演算法或者其他方法能夠訓練出多個不同的模型，然後將這些模型的輸出作為新的資料集，即將這些訓練的模型的輸出再作為為輸入訓練一個模型，最後得到一個最終的輸出，下圖為Stacking的大致流程圖：

如果可以選用任意的組合演算法，那麼理論上，Stacking可以表示上面提到的各種Ensemble方法。但是在實際應用中通常使用單層logistic迴歸作為組合模型。

二、程式碼示例

在這裡使用了mlxtend庫，它可以很好地完成對sklearn模型地stacking。

# -*- coding: utf-8 -*-

import pickle
from xgboost import XGBClassifier
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from mlxtend.classifier import StackingCVClassifier

with 
 open('../data/training_df.pkl', 'rb') as f:
    df = pickle.load(f)
with open(r'../data/selected_feat_names.pkl', 'rb') as f:
    selected_feat_names = pickle.load(f)
print("data loaded")

# train on full data set
y = df["attack_type"].values
X = df[selected_feat_names].values

xgb = XGBClassifier(learning_rate =0.5 
,n_estimators=300,max_depth=5,gamma=0,subsample=0.8,)
rfc = RandomForestClassifier(n_jobs=-1, n_estimators=35, criterion="entropy")
etc = ExtraTreesClassifier(n_jobs=-1, n_estimators=5, criterion="entropy")
lr = LogisticRegression(n_jobs=-1, C=8)  # meta classifier

sclf = StackingCVClassifier(classifiers=[xgb, rfc, etc], meta_classifier=lr, use_probas=True, n_folds=3, verbose=3)

sclf.fit(X, y)
print("training finished")

# save model for later predicting
with open(r'../data/stacking.pkl', 'wb') as f:
    pickle.dump(sclf, f)
print("model dumped")

【Machine Learning】模型融合之Stacking

一、Stacking簡介 Stacking(stacked generalization)是在大資料競賽中不可缺少的武器，其指訓練一個用於組合(combine)其他多個不同模型的模型，具體是說首先

【Machine Learning】特徵工程之獨熱編碼(One-hot Encoding)

一、獨熱編碼當我們在機器學習做特徵工程時，如果某個categorical特徵具有多個符號值，則不可能對具有這種特徵的資料進行訓練,而獨熱編碼是解決這個問題的一種方法。比如我們有一個特徵是protocol_type有三個值：tcp，udp，icmp，那麼我們

【Machine :Learning】樸素貝葉斯

1. 樸素貝葉斯：條件概率在機器學習演算法的應用。理解這個演算法需要一點推導。不會編輯公式。。核心就是在已知訓練集的前提條件下，算出每個特徵的概率為該分類的概率，然後套貝葉斯公式計算預測集的所有分類概率，預測型別為概率最大的型別 from numpy import * def l

ML - 貸款使用者逾期情況分析4 - 模型融合之Stacking

文章目錄模型融合之Stacking (判定貸款使用者是否逾期) 1. 理論介紹 1.1 系統解釋 1.2 詳細解釋 2. 程式碼 2.1 調包實現 2.2 自己實現

【Machine Learning 】線性迴歸

線性迴歸我們可以通過測量損耗來衡量線路的適合程度。線性迴歸的目標是最小化損失。為了找到最佳擬合線，我們嘗試找到最小化損失的b值（截距）和m值（斜率）。收斂是指引數在每次迭代時停止變化時的引數學習率是指每次迭代時引數的變化程度。我們可以

【天池學習】模型融合概述

在比賽中提高成績主要有3個地方特徵工程調參模型融合 1. Voting 模型融合其實也沒有想象的那麼高大上，從最簡單的Voting說起，這也可以說是一種模型融合。假設對於一個二分類問題，有3個基礎模型，那麼就採取投票制的方法，投票多者確定為最終的分類。 2.A

【Machine Learning】使用隨機森林進行特徵選擇

一、特徵選擇在我們做特徵工程時，當我們提取完特徵後，可能存在並不是所有的特徵都能分類起到作用的問題，這個時候就需要使用特徵選擇的方法選出相對重要的特徵用於構建分類器。此外，使用特徵選擇這一步驟也大大減少了訓練的時間，而且模型的擬合能力也不會出現很大的降低問

【Machine Learning】【Python】三、PSO + PCA優化SVM引數C和gamma ---- 《SVM物體分類和定位檢測》

---------------------【6.27 更新libsvm使用方法】-------------------------------------------------------------

【machine learning】GMM演算法（Python版）

本文參考CSDN大神的博文，並在講述中引入自己的理解，純粹理清思路，並將程式碼改為了Python版本。（在更改的過程中，一方面理清自己對GMM的理解，一方面學習了numpy的應用，不過也許是Python粉指數超標才覺得有必要改(⊙o⊙)）一、GMM模型

【Machine learning】引數估計（個人通俗理解）

問題背景：我們知道了總體的分佈，但不知道分佈的引數，因此我們就要對未知的引數做出估計。兩個型別的估計： 1.點估計 2.區間估計 1.點估計包括矩估計和極大似然估計 1）矩估計：用樣本矩去估計總體矩這裡就可以用樣本一階矩（均值）估計整體一階矩（

【Machine Learning】【Python】一、HoG + SVM 物體分類 ---- 《SVM物體分類和定位檢測》

----------【2018.09.07更新】--- 如果你看到了這篇文章，並且從github下載了程式碼想走一遍整個流程。我強烈建議你把《SVM物體分類和定位檢測》這一系列的6篇文章都仔細看一遍。內容不多，但會對你理解演算法和程式碼有很大的幫助。 ----------

【Machine Learning】Python開發工具：Anaconda+Sublime

作者：白寧超 2016年12月23日21:24:51 摘要：隨著機器學習和深度學習的熱潮，各種圖書層出不窮。然而多數是基礎理論知識介紹，缺乏實現的深入理解。本系列文章是作者結合視訊學習和書籍基礎的筆記所得。本系列文章將採用理論結合實踐方式編寫。首先介紹機器學習和深度學習的範疇，然後介紹關於訓練集、測試

【Machine Learning】機器學習及其基礎概念簡介

基本概念：訓練集，測試集，特徵值，監督學習，非監督學習，半監督學習，分類，迴歸概念學習：人類學習概念：鳥，車，計算機定義：概念學習是指從有關某個布林函式的輸入輸出訓練樣例中推斷出該布林函式例子：學習 “享受運動" 這一概念：小明進行水上運動，是否享受運動取決於很多因素樣例天

【Machine Learning】KNN演算法虹膜圖片識別

import csv import math import random import operator ''' Description:python呼叫機器學習庫scikit-learn的K臨近演算法，實現花瓣分類 Author:Bai Ningchao DateTime:2017年1

【Machine Learning】決策樹案例：基於python的商品購買能力預測系統

作者：白寧超 2016年12月24日22:05:42 摘要：隨著機器學習和深度學習的熱潮，各種圖書層出不窮。然而多數是基礎理論知識介紹，缺乏實現的深入理解。本系列文章是作者結合視訊學習和書籍基礎的筆記所得。本系列文章將採用理論結合實踐方式編寫。首先介紹機器學習和深度學習的範疇，然後介紹關於訓練集、

【Machine Learning】【Andrew Ng】- Quiz2(Week 6)

1、You are working on a spam classification system using regularized logistic regression. “Spam” is a positive class (y = 1) and “no

模型融合之stacking方法

之前一直對stacking一知半解，找到的資料也介紹的很模糊。所以有多看了幾篇文章，然後來此寫篇部落格，加深一下印象，順便給各位朋友分享一下。stacking的過程有一張圖非常經典，如下：雖然他很直觀，但是沒有語言描述確實很難搞懂。上半部分是用一個基礎模型進行5折交叉驗證，如

【Machine Learning】【Andrew Ng】- Quiz(Week 7)

1、Suppose you have trained an SVM classier with a Gaussian kernel, and it learned the following decision boundary on the training s

【Machine learning】決策樹（decision tree ）

三個問題：怎樣選擇根節點怎樣選擇後繼節點什麼時候停止（一顆決策樹=》一個分類準則=》一個模型）基本的演算法：對一開始提出來的三個問題進行解答： 1.選擇最優屬性 ID3: 最優屬性選擇資訊增益最大的屬性來作為最優屬性設D為用

【Machine Learning】【Andrew Ng】- Quiz1(Week 8)

1、For which of the following tasks might K-means clustering be a suitable algorithm? Select all that apply. A. Given a database o

【Machine Learning】模型融合之Stacking

相關推薦