阿里雲的金融風控-貸款違約預測_模型融合

阿新 • • 發佈：2020-09-11

模型融合

5.1 學習目標

將之前建模調參的結果進行模型融合。嘗試多種融合方案，提交融合結果並打卡。（模型融合一般用於A榜比賽的尾聲和B榜比賽的全程）

5.2 內容介紹

模型融合是比賽後期上分的重要手段，特別是多人組隊學習的比賽中，將不同隊友的模型進行融合，可能會收穫意想不到的效果哦，往往模型相差越大且模型表現都不錯的前提下，模型融合後結果會有大幅提升，以下是模型融合的方式。

平均：
- 簡單平均法
- 加權平均法
投票：
- 簡單投票法
- 加權投票法
綜合：
- 排序融合
- log融合
stacking:
- 構建多層模型，並利用預測結果再擬合預測。
blending：
- 選取部分資料預測訓練得到預測結果作為新特徵，帶入剩下的資料中預測。Blending只有一層，而Stacking有多層
boosting/bagging（在Task4中已經提及，就不再贅述）

5.3 stacking\blending詳解

stacking 將若干基學習器獲得的預測結果，將預測結果作為新的訓練集來訓練一個學習器。如下圖假設有五個基學習器，將資料帶入五基學習器中得到預測結果，再帶入模型六中進行訓練預測。但是由於直接由五個基學習器獲得結果直接帶入模型六中，容易導致過擬合。所以在使用五個及模型進行預測的時候，可以考慮使用K折驗證，防止過擬合。

blending 與stacking不同，blending是將預測的值作為新的特徵和原特徵合併，構成新的特徵值，用於預測。為了防止過擬合，將資料分為兩部分d1、d2，使用d1的資料作為訓練集，d2資料作為測試集。預測得到的資料作為新特徵使用d2的資料作為訓練集結合新特徵，預測測試集結果。

Blending與stacking的不同
- stacking
  - stacking中由於兩層使用的資料不同，所以可以避免資訊洩露的問題。
  - 在組隊競賽的過程中，不需要給隊友分享自己的隨機種子。
- Blending
  - blending比stacking簡單，不需要構建多層模型。
  - 由於blending對將資料劃分為兩個部分，在最後預測時有部分資料資訊將被忽略。
  - 同時在使用第二層資料時可能會因為第二層資料較少產生過擬合現象。

參考資料：還是沒有理解透徹嗎？可以檢視參考資料進一步瞭解哦!

https://blog.csdn.net/wuzhongqiang/article/details/105012739

5.4 程式碼示例

5.4.1 平均：

簡單加權平均，結果直接融合求多個預測結果的平均值。pre1-pren分別是n組模型預測出來的結果，將其進行加權融

pre = (pre1 + pre2 + pre3 +...+pren )/n

加權平均法一般根據之前預測模型的準確率，進行加權融合，將準確性高的模型賦予更高的權重。

pre = 0.3pre1 + 0.3pre2 + 0.4pre3

5.4.2 投票

簡單投票

from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=4, min_child_weight=2, subsample=0.7,objective='binary:logistic')
 
vclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('xgb', clf3)])
vclf = vclf .fit(x_train,y_train)
print(vclf .predict(x_test))


## 加權投票
##在VotingClassifier中加入引數 voting='soft', weights=[2, 1, 1]，weights用於調節基模型的權重

from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
clf1 = LogisticRegression(random_state=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = XGBClassifier(learning_rate=0.1, n_estimators=150, max_depth=4, min_child_weight=2, subsample=0.7,objective='binary:logistic')
 
vclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('xgb', clf3)], voting='soft', weights=[2, 1, 1])
vclf = vclf .fit(x_train,y_train)
print(vclf .predict(x_test))

5.4.3 Stacking：

import warnings
warnings.filterwarnings('ignore')
import itertools
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
from mlxtend.classifier import StackingClassifier
from sklearn.model_selection import cross_val_score, train_test_split
from mlxtend.plotting import plot_learning_curves
from mlxtend.plotting import plot_decision_regions


# 以python自帶的鳶尾花資料集為例
iris = datasets.load_iris()
X, y = iris.data[:, 1:3], iris.target


clf1 = KNeighborsClassifier(n_neighbors=1)
clf2 = RandomForestClassifier(random_state=1)
clf3 = GaussianNB()
lr = LogisticRegression()
sclf = StackingClassifier(classifiers=[clf1, clf2, clf3], 
                          meta_classifier=lr)


label = ['KNN', 'Random Forest', 'Naive Bayes', 'Stacking Classifier']
clf_list = [clf1, clf2, clf3, sclf]
    
fig = plt.figure(figsize=(10,8))
gs = gridspec.GridSpec(2, 2)
grid = itertools.product([0,1],repeat=2)


clf_cv_mean = []
clf_cv_std = []
for clf, label, grd in zip(clf_list, label, grid):
        
    scores = cross_val_score(clf, X, y, cv=5, scoring='accuracy')
    print("Accuracy: %.2f (+/- %.2f) [%s]" %(scores.mean(), scores.std(), label))
    clf_cv_mean.append(scores.mean())
    clf_cv_std.append(scores.std())
        
    clf.fit(X, y)
    ax = plt.subplot(gs[grd[0], grd[1]])
    fig = plot_decision_regions(X=X, y=y, clf=clf)
    plt.title(label)


plt.show()

Accuracy: 0.91 (+/- 0.07) [KNN]
Accuracy: 0.94 (+/- 0.04) [Random Forest]
Accuracy: 0.91 (+/- 0.04) [Naive Bayes]
Accuracy: 0.94 (+/- 0.04) [Stacking Classifier]

5.4.4 blending

# 以python自帶的鳶尾花資料集為例
data_0 = iris.data
data = data_0[:100,:]


target_0 = iris.target
target = target_0[:100]
 
#模型融合中基學習器
clfs = [LogisticRegression(),
        RandomForestClassifier(),
        ExtraTreesClassifier(),
        GradientBoostingClassifier()]
 
#切分一部分資料作為測試集
X, X_predict, y, y_predict = train_test_split(data, target, test_size=0.3, random_state=914)


#切分訓練資料集為d1,d2兩部分
X_d1, X_d2, y_d1, y_d2 = train_test_split(X, y, test_size=0.5, random_state=914)
dataset_d1 = np.zeros((X_d2.shape[0], len(clfs)))
dataset_d2 = np.zeros((X_predict.shape[0], len(clfs)))
 
for j, clf in enumerate(clfs):
    #依次訓練各個單模型
    clf.fit(X_d1, y_d1)
    y_submission = clf.predict_proba(X_d2)[:, 1]
    dataset_d1[:, j] = y_submission
    #對於測試集，直接用這k個模型的預測值作為新的特徵。
    dataset_d2[:, j] = clf.predict_proba(X_predict)[:, 1]
    print("val auc Score: %f" % roc_auc_score(y_predict, dataset_d2[:, j]))


#融合使用的模型
clf = GradientBoostingClassifier()
clf.fit(dataset_d1, y_d2)
y_submission = clf.predict_proba(dataset_d2)[:, 1]
print("Val auc Score of Blending: %f" % (roc_auc_score(y_predict, y_submission)))

5.5 經驗總結

簡單平均和加權平均是常用的兩種比賽中模型融合的方式。其優點是快速、簡單。
stacking在眾多比賽中大殺四方，但是跑過程式碼的小夥伴想必能感受到速度之慢，同時stacking多層提升幅度並不能抵消其帶來的時間和記憶體消耗，所以實際環境中應用還是有一定的難度，同時在有答辯環節的比賽中，主辦方也會一定程度上考慮模型的複雜程度，所以說並不是模型融合的層數越多越好的。
當然在比賽中將加權平均、stacking、blending等混用也是一種策略，可能會收穫意想不到的效果哦！

阿里雲的金融風控-貸款違約預測_模型融合

模型融合 5.1 學習目標將之前建模調參的結果進行模型融合。嘗試多種融合方案，提交融合結果並打卡。（模型融合一般用於A榜比賽的尾聲和B榜比賽的全程）

阿里雲的金融風控-貸款違約預測_特徵工程

特徵工程 3.1 學習目標學習特徵預處理、缺失值、異常值處理、資料分桶等特徵處理方法

阿里雲的金融風控-貸款違約預測_建模和調參

建模與調參 4.1 學習目標學習在金融分控領域常用的機器學習模型學習機器學習模型的建模過程與調參流程

阿里雲的金融風控-貸款違約預測

一、賽題資料資料大家可以到官網去下載：https://tianchi.aliyun.com/competition/entrance/531830/information需要報名後才可以下載資料

【第17期Datawhale | 零基礎入門金融風控-貸款違約預測】Task02打卡：探索性資料分析【pandas_profiling生成資料報告異常，解決後單開一篇】

零基礎入門金融風控-貸款違約預測 Task02 探索性資料分析 Task02目的: 熟悉整體資料集的基本情況,異常值,缺失值等, 判斷資料集是否可以進行接下來的機器學習或者深度學習建模.

金融風控貸款預測之EDAtask1

檢視train與test列特徵 train 800000條資料，47列； testa 200000條資料，48列。 >>>print(train.shape)

貸款違約預測第三週週報

進一步資料分析上一次對資料進行了簡單的特徵值處理，填補了缺失值，將資料格式做了處理，用基本原版的資料跑了一遍模型，成績一般，所以這周將對資料進行進一步的分析處理，篩選出有更有意義的特徵資料來

貸款違約預測第四周週報

模型優化上週主要對訓練集的一些特徵值進行了一定分析，畫了簡單的統計圖進行檢視，這周主要是在上週的資料分析基礎上，繼續優化模型，從而得到更優的結果。資料處理後，這次主要是針對所用的xgboost演算

特徵錦囊：金融風控裡的WOE前的分箱一定要單調嗎？

今日錦囊特徵錦囊：金融風控裡的WOE前的分箱一定要單調嗎？今天我們來講講一個金融風控裡的“常識點”，就是那種我們習以為常但若要講出個所以然來比較困難的點，正如標題所言：WOE前的分箱一定要單調

阿里雲盤迴應“連續大量下載資料後被封號”稱“觸發風控策略致臨時封停”

4 月 8 日訊息，阿里雲盤是阿里巴巴集團出品的一款速度快、不打擾、夠安全、易於分享的網盤，深受使用者喜愛。上個月，阿里雲盤 App 宣佈推出會員權益，非會員使用者繼續保持不限速；會員 6TB 空間，每月 12 元；超

網商銀行釋出衛星風控系統“大山雀”：用於農村貸款領域

9月28日訊息讓農民用手機地圖圈出自己的土地，然後讓衛星看看地裡種了啥，長得怎麼樣。接著，銀行就能夠根據這些給農民貸款，這並非是科幻片裡的事情。

資源利用率提高67%，騰訊實時風控平臺雲原生容器化之路

導語隨著部門在業務安全領域的不斷拓展，圍繞著驗證碼、金融廣告等服務場景，騰訊水滴作為支撐業務安全對抗的實時風控系統，上線的任務實時性要求越來越高，需要支撐的業務請求量也隨之增加。對於業務快速上線和資

基於華為雲TICS實現聯合風控模型訓練

背景在銀行傳統的信用評估決策機制中，最常用的幾個特徵維度無非是個人資產、收入、信貸歷史、抵押擔保等。這些維度雖然能夠反映借款人的還款能力，但是過於簡單的規則往往也會拒絕掉很多潛在的優質客戶。並且稽核過

阿里雲與達摩院合作 AHPA 彈性預測論文被頂會 ICDE 錄用

近日，阿里雲容器服務團隊與達摩院資料決策團隊合作的論文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被資料管理與資料庫國際頂級會議 ICDE 2022 長文錄用。ICDE 和 SIGMOD、VLDB 並稱為資料庫領

阿里雲叔同：以容器為代表的雲原生技術，已成為釋放雲價值的最短路徑

作者 | 丁宇（叔同）阿里雲智慧容器平臺負責人、劉丹 2019 年阿里巴巴雙11 核心系統 100% 以雲原生的方式上雲，完美支撐了 54.4w 峰值流量以及 2684 億的成交量。隨著阿里巴巴經濟體雲原生技術的全面升級，容器

阿里雲開源 image-syncer 工具，容器映象遷移同步的終極利器

為什麼要做這個工具？由於阿里雲上的容器服務 ACK 在使用成本、運維成本、方便性、長期穩定性上大大超過公司自建自維護 Kubernets 叢集，有不少公司紛紛想把之前自己維護 Kubernetes 負載遷移到阿里雲 ACK 服務上。

朱曄和你聊Spring系列S1E11：小測Spring Cloud Kubernetes @ 阿里雲K8S

有關Spring Cloud Kubernetes（以下簡稱SCK）詳見https://github.com/spring-cloud/spring-cloud-kubernetes，在本文中我們主要測試三個功能：

基於 spring cloud gateway filter 統一生成阿里雲 OSS 檔案簽名

問題我們的檔案（使用者的身份證件，隱私視訊等）都放在阿里雲 OSS，OSS Bucket Name 儲存空間的讀寫許可權設定為私有，代表屬於這個 bucket name 的檔案都需要經過身份認證才能訪問。

阿里雲Redis開發規範

摘要：本文介紹了在使用阿里雲Redis的開發規範，從鍵值設計、命令使用、客戶端使用、相關工具等方面進行說明，通過本文的介紹可以減少使用Redis過程帶來的問題。

java實現上傳檔案到oss(阿里雲)功能示例

本文例項講述了java實現上傳檔案到oss(阿里雲)功能。分享給大家供大家參考，具體如下：

阿里雲的金融風控-貸款違約預測_模型融合

模型融合

5.1 學習目標

5.2 內容介紹

5.3 stacking\blending詳解

5.4 程式碼示例

5.4.1 平均：

5.4.2 投票

5.4.3 Stacking：

5.4.4 blending

5.5 經驗總結

相關推薦