使用基於Apache Spark的隨機森林方法預測貸款風險

在本文中，我將向大家介紹如何使用Apache Spark的spark.ml庫中的隨機森林演算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基於DataFrame，它提供了大量的介面，幫助使用者建立和調優機器學習工作流。結合dataframe使用spark.ml，能夠實現模型的智慧優化，從而提升模型效果。

分類演算法

分類演算法是一類監督式機器學習演算法，它根據已知標籤的樣本（如已經明確交易是否存在欺詐）來預測其它樣本所屬的類別（如是否屬於欺詐性的交易）。分類問題需要一個已經標記過的資料集和預先設計好的特徵，然後基於這些資訊來學習給新樣本打標籤。所謂的特徵即是一些“是與否”的問題。標籤就是這些問題的答案。在下面這個例子裡，如果某個動物的行走姿態、游泳姿勢和叫聲都像鴨子，那麼就給它打上“鴨子”的標籤。

我們來看一個銀行信貸的信用風險例子：

我們需要預測什麼？
- 某個人是否會按時還款
- 這就是標籤：此人的信用度
你用來預測的“是與否”問題或者屬性是什麼？
- 申請人的基本資訊和社會身份資訊：職業，年齡，存款儲蓄，婚姻狀態等等……
- 這些就是特徵，用來構建一個分類模型，你從中提取出對分類有幫助的特徵資訊。

決策樹模型

決策樹是一種基於輸入特徵來預測類別或是標籤的分類模型。決策樹的工作原理是這樣的，它在每個節點都需要計算特徵在該節點的表示式值，然後基於運算結果選擇一個分支通往下一個節點。下圖展示了一種用來預測信用風險的決策樹模型。每個決策問題就是模型的一個節點，“是”或者“否”的答案是通往子節點的分支。

問題1：賬戶餘額是否大於200元？
- 否
- 問題2：當前就職時間是否超過1年？
  - 否
  - 不可信賴

圖片描述

隨機森林模型

融合學習演算法結合了多個機器學習的演算法，從而得到了效果更好的模型。隨機森林是分類和迴歸問題中一類常用的融合學習方法。此演算法基於訓練資料的不同子集構建多棵決策樹，組合成一個新的模型。預測結果是所有決策樹輸出的組合，這樣能夠減少波動，並且提高預測的準確度。對於隨機森林分類模型，每棵樹的預測結果都視為一張投票。獲得投票數最多的類別就是預測的類別。

圖片描述

基於Spark機器學習工具來分析信用風險問題

我們使用德國人信用度資料集，它按照一系列特徵屬性將人分為信用風險好和壞兩類。我們可以獲得每個銀行貸款申請者的以下資訊：

圖片描述

存放德國人信用資料的csv檔案格式如下：

1,1,18,4,2,1049,1,2,4,2,1,4,2,21,3,1,1,3,1,1,1
1,1,9,4,0,2799,1,3,2,3,1,2,1,36,3,1,2,3,2,1,1
1,2,12,2,9,841,2,4,2,2,1,4,1,23,3,1,1,2,1,1,1

在這個背景下，我們會構建一個由決策樹組成的隨機森林模型來預測是否守信用的標籤/類別，基於以下特徵：

標籤 -> 守信用或者不守信用（1或者0）
特徵 -> {存款餘額，信用歷史，貸款目的等等}

軟體

本教程將使用Spark 1.6.1

按照教程指示，登入MapR沙箱，使用者名稱為user01，密碼為mapr。將樣本資料檔案複製到你的沙箱主目錄下/user/user01 using scp。（注意，你可能需要先更新Spark的版本）開啟spark shell：

$spark-shell --master local[1]

載入並解析csv資料檔案

首先，我們需要引入機器學習相關的包。

import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.ml.feature.VectorAssembler
import sqlContext.implicits._
import sqlContext._
import org.apache.spark.ml.tuning.{ ParamGridBuilder, CrossValidator }
import org.apache.spark.ml.{ Pipeline, PipelineStage }

我們用一個Scala的case類來定義Credit的屬性，對應於csv檔案中的一行。

    // define the Credit Schema
    case class Credit(
        creditability: Double,
        balance: Double, duration: Double, history: Double, purpose: Double, amount: Double,
        savings: Double, employment: Double, instPercent: Double, sexMarried: Double, guarantors: Double,
        residenceDuration: Double, assets: Double, age: Double, concCredit: Double, apartment: Double,
        credits: Double, occupation: Double, dependents: Double, hasPhone: Double, foreign: Double
      )

下面的函式解析一行資料檔案，將值存入Credit類中。類別的索引值減去了1，因此起始索引值為0.

    // function to create a  Credit class from an Array of Double
    def parseCredit(line: Array[Double]): Credit = {
        Credit(
          line(0),
          line(1) - 1, line(2), line(3), line(4) , line(5),
          line(6) - 1, line(7) - 1, line(8), line(9) - 1, line(10) - 1,
          line(11) - 1, line(12) - 1, line(13), line(14) - 1, line(15) - 1,
          line(16) - 1, line(17) - 1, line(18) - 1, line(19) - 1, line(20) - 1
        )
      }
    // function to transform an RDD of Strings into an RDD of Double
      def parseRDD(rdd: RDD[String]): RDD[Array[Double]] = {
        rdd.map(_.split(",")).map(_.map(_.toDouble))
      }

接下去，我們匯入germancredit.csv檔案中的資料，存為一個String型別的RDD。然後我們對RDD做map操作，將RDD中的每個字串經過ParseRDDR函式的對映，轉換為一個Double型別的陣列。緊接著是另一個map操作，使用ParseCredit函式，將每個Double型別的RDD轉換為Credit物件。toDF()函式將Array[[Credit]]型別的RDD轉為一個Credit類的Dataframe。

    // load the data into a  RDD
    val creditDF= parseRDD(sc.textFile("germancredit.csv")).map(parseCredit).toDF().cache()
    creditDF.registerTempTable("credit")

DataFrame的printSchema()函式將各個欄位含義以樹狀的形式列印到控制檯輸出。

    // Return the schema of this DataFrame
    creditDF.printSchema

    root
     |-- creditability: double (nullable = false)
     |-- balance: double (nullable = false)
     |-- duration: double (nullable = false)
     |-- history: double (nullable = false)
     |-- purpose: double (nullable = false)
     |-- amount: double (nullable = false)
     |-- savings: double (nullable = false)
     |-- employment: double (nullable = false)
     |-- instPercent: double (nullable = false)
     |-- sexMarried: double (nullable = false)
     |-- guarantors: double (nullable = false)
     |-- residenceDuration: double (nullable = false)
     |-- assets: double (nullable = false)
     |-- age: double (nullable = false)
     |-- concCredit: double (nullable = false)
     |-- apartment: double (nullable = false)
     |-- credits: double (nullable = false)
     |-- occupation: double (nullable = false)
     |-- dependents: double (nullable = false)
     |-- hasPhone: double (nullable = false)
     |-- foreign: double (nullable = false)

    // Display the top 20 rows of DataFrame 
    creditDF.show

    +-------------+-------+--------+-------+-------+------+-------+----------+-----------+----------+----------+-----------------+------+----+----------+---------+-------+----------+----------+--------+-------+
    |creditability|balance|duration|history|purpose|amount|savings|employment|instPercent|sexMarried|guarantors|residenceDuration|assets| age|concCredit|apartment|credits|occupation|dependents|hasPhone|foreign|
    +-------------+-------+--------+-------+-------+------+-------+----------+-----------+----------+----------+-----------------+------+----+----------+---------+-------+----------+----------+--------+-------+
    |          1.0|    0.0|    18.0|    4.0|    2.0|1049.0|    0.0|       1.0|        4.0|       1.0|       0.0|              3.0|   1.0|21.0|       2.0|      0.0|    0.0|       2.0|       0.0|     0.0|    0.0|
    |          1.0|    0.0|     9.0|    4.0|    0.0|2799.0|    0.0|       2.0|        2.0|       2.0|       0.0|              1.0|   0.0|36.0|       2.0|      0.0|    1.0|       2.0|       1.0|     0.0|    0.0|
    |          1.0|    1.0|    12.0|    2.0|    9.0| 841.0|    1.0|       3.0|        2.0|       1.0|       0.0|              3.0|   0.0|23.0|       2.0|      0.0|    0.0|       1.0|       0.0|     0.0|    0.0|
    |          1.0|    0.0|    12.0|    4.0|    0.0|2122.0|    0.0|       2.0|        3.0|       2.0|       0.0|              1.0|   0.0|39.0|       2.0|      0.0|    1.0|       1.0|       1.0|     0.0|    1.0|
    |          1.0|    0.0|    12.0|    4.0|    0.0|2171.0|    0.0|       2.0|        4.0|       2.0|       0.0|              3.0|   1.0|38.0|       0.0|      1.0|    1.0|       1.0|       0.0|     0.0|    1.0|
    |          1.0|    0.0|    10.0|    4.0|    0.0|2241.0|    0.0|       1.0|        1.0|       2.0|       0.0|              2.0|   0.0|48.0|       2.0|      0.0|    1.0|       1.0|       1.0|     0.0|    1.0|
    |          1.0|    0.0|     8.0|    4.0|    0.0|3398.0|    0.0|       3.0|        1.0|       2.0|       0.0|              3.0|   0.0|39.0|       2.0|      1.0|    1.0|       1.0|       0.0|     0.0|    1.0|
    |          1.0|    0.0|     6.0|    4.0|    0.0|1361.0|    0.0|       1.0|        2.0|       2.0|       0.0|              3.0|   0.0|40.0|       2.0|      1.0|    0.0|       1.0|       1.0|     0.0|    1.0|
    |          1.0|    3.0|    18.0|    4.0|    3.0|1098.0|    0.0|       0.0|        4.0|       1.0|       0.0|              3.0|   2.0|65.0|       2.0|      1.0|    1.0|       0.0|       0.0|     0.0|    0.0|
    |          1.0|    1.0|    24.0|    2.0|    3.0|3758.0|    2.0|       0.0|        1.0|       1.0|       0.0|              3.0|   3.0|23.0|       2.0|      0.0|    0.0|       0.0|       0.0|     0.0|    0.0|
    |          1.0|    0.0|    11.0|    4.0|    0.0|3905.0|    0.0|       2.0|        2.0|       2.0|       0.0|              1.0|   0.0|36.0|       2.0|      0.0|    1.0|       2.0|       1.0|     0.0|    0.0|
    |          1.0|    0.0|    30.0|    4.0|    1.0|6187.0|    1.0|       3.0|        1.0|       3.0|       0.0|              3.0|   2.0|24.0|       2.0|      0.0|    1.0|       2.0|       0.0|     0.0|    0.0|
    |          1.0|    0.0|     6.0|    4.0|    3.0|1957.0|    0.0|       3.0|        1.0|       1.0|       0.0|              3.0|   2.0|31.0|       2.0|      1.0|    0.0|       2.0|       0.0|     0.0|    0.0|
    |          1.0|    1.0|    48.0|    3.0|   10.0|7582.0|    1.0|       0.0|        2.0|       2.0|       0.0|              3.0|   3.0|31.0|       2.0|      1.0|    0.0|       3.0|       0.0|     1.0|    0.0|
    |          1.0|    0.0|    18.0|    2.0|    3.0|1936.0|    4.0|       3.0|        2.0|       3.0|       0.0|              3.0|   2.0|23.0|       2.0|      0.0|    1.0|       1.0|       0.0|     0.0|    0.0|
    |          1.0|    0.0|     6.0|    2.0|    3.0|2647.0|    2.0|       2.0|        2.0|       2.0|       0.0|              2.0|   0.0|44.0|       2.0|      0.0|    0.0|       2.0|       1.0|     0.0|    0.0|
    |          1.0|    0.0|    11.0|    4.0|    0.0|3939.0|    0.0|       2.0|        1.0|       2.0|       0.0|              1.0|   0.0|40.0|       2.0|      1.0|    1.0|       1.0|       1.0|     0.0|    0.0|
    |          1.0|    1.0|    18.0|    2.0|    3.0|3213.0|    2.0|       1.0|        1.0|       3.0|       0.0|              2.0|   0.0|25.0|       2.0|      0.0|    0.0|       2.0|       0.0|     0.0|    0.0|
    |          1.0|    1.0|    36.0|    4.0|    3.0|2337.0|    0.0|       4.0|        4.0|       2.0|       0.0|              3.0|   0.0|36.0|       2.0|      1.0|    0.0|       2.0|       0.0|     0.0|    0.0|
    |          1.0|    3.0|    11.0|    4.0|    0.0|7228.0|    0.0|       2.0|        1.0|       2.0|       0.0|              3.0|   1.0|39.0|       2.0|      1.0|    1.0|       1.0|       0.0|     0.0|    0.0|
    +-------------+-------+--------+-------+-------+------+-------+----------+-----------+----------+----------+-----------------+------+----+----------+---------+-------+----------+----------+--------+-------+

dataframe初始化之後，你可以用SQL命令查詢資料了。下面是一些使用Scala DataFrame介面查詢資料的例子：

計算數值型資料的統計資訊，包括計數、均值、標準差、最小值和最大值。

    //  computes statistics for balance 
      creditDF.describe("balance").show

    +-------+-----------------+
    |summary|          balance|
    +-------+-----------------+
    |  count|             1000|
    |   mean|            1.577|
    | stddev|1.257637727110893|
    |    min|              0.0|
    |    max|              3.0|
    +-------+-----------------+


    // compute the avg balance by creditability (the label) 
     creditDF.groupBy("creditability").avg("balance").show

    +-------------+------------------+
    |creditability|      avg(balance)|
    +-------------+------------------+
    |          1.0|1.8657142857142857|
    |          0.0|0.9033333333333333|
    +-------------+------------------+

你可以用某個表名將DataFrame註冊為一張臨時表，然後用SQLContext提供的sql方法執行SQL命令。下面是幾個用sqlContext查詢的例子：

     sqlContext.sql("SELECT creditability, avg(balance) as avgbalance, avg(amount) as avgamt, avg(duration) as avgdur  FROM credit GROUP BY creditability ").show

    +-------------+------------------+------------------+------------------+
    |creditability|        avgbalance|            avgamt|            avgdur|
    +-------------+------------------+------------------+------------------+
    |          1.0|1.8657142857142857| 2985.442857142857|19.207142857142856|
    |          0.0|0.9033333333333333|3938.1266666666666|             24.86|
    +-------------+------------------+------------------+------------------+

提取特徵

為了構建一個分類模型，你首先需要提取對分類最有幫助的特徵。在德國人信用度的資料集裡，每條樣本用兩個類別來標記——1（可信）和0（不可信）。

每個樣本的特徵包括以下的欄位：

標籤 -> 是否可信：0或者1
特徵 -> {“存款”，“期限”，“歷史記錄”，“目的”，“數額”，“儲蓄”，“是否在職”，“婚姻”，“擔保人”，“居住時間”，“資產”，“年齡”，“歷史信用”，“居住公寓”，“貸款”，“職業”，“監護人”，“是否有電話”，“外籍”}

定義特徵陣列

圖片描述

為了在機器學習演算法中使用這些特徵，這些特徵經過了變換，存入特徵向量中，即一組表示各個維度特徵值的數值向量。

下圖中，用VectorAssembler方法將每個維度的特徵都做變換，返回一個新的dataframe。

    //define the feature columns to put in the feature vector
    val featureCols = Array("balance", "duration", "history", "purpose", "amount",
        "savings", "employment", "instPercent", "sexMarried",  "guarantors",
        "residenceDuration", "assets",  "age", "concCredit", "apartment",
        "credits",  "occupation", "dependents",  "hasPhone", "foreign" )
    //set the input and output column names
      val assembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features")
    //return a dataframe with all of the  feature columns in  a vector column
    val df2 = assembler.transform( creditDF)
    // the transform method produced a new column: features.
    df2.show

    +-------------+-------+--------+-------+-------+------+-------+----------+-----------+----------+----------+-----------------+------+----+----------+---------+-------+----------+----------+--------+-------+--------------------+
    |creditability|balance|duration|history|purpose|amount|savings|employment|instPercent|sexMarried|guarantors|residenceDuration|assets| age|concCredit|apartment|credits|occupation|dependents|hasPhone|foreign|            features|
    +-------------+-------+--------+-------+-------+------+-------+----------+-----------+----------+----------+-----------------+------+----+----------+---------+-------+----------+----------+--------+-------+--------------------+
    |          1.0|    0.0|    18.0|    4.0|    2.0|1049.0|    0.0|       1.0|        4.0|       1.0|       0.0|              3.0|   1.0|21.0|       2.0|      0.0|    0.0|       2.0|       0.0|     0.0|    0.0|(20,[1,2, 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    使用基於Apache Spark的隨機森林方法預測貸款風險
      
                


在本文中，我將向大家介紹如何使用Apache Spark的spark.ml庫中的隨機森林演算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基於DataFrame，它提供了大量的介面，幫助使用者建立和調優機器學習工作流。結合dataframe使用spa 

  
 

    

    
    利用R語言預測銀行客戶信用的優劣(隨機森林方法)
      
							
							
							我們選取的資料時1994年德國的一家銀行在平定客戶信用風險好壞的時候用到的一組變數,共有1000組資料。由於年代久遠可能和實際有些出入。資料可以在下面的網址下載。       http://archive.ics.uci.edu/ml/datasets/Stat 

  
 

    

    
    spark 隨機森林算法案例實戰
      方法   ring   table   shel   evel   算法   下使用   org   trap   隨機森林算法
由多個決策樹構成的森林，算法分類結果由這些決策樹投票得到，決策樹在生成的過程當中分別在行方向和列方向上添加隨機過程，行方向上構建決策樹時采用放回抽樣（bootstraping）得到 

  
 

    

    
    整合學習 (AdaBoost、Bagging、隨機森林 ) python 預測
       
 
 
 首先明確一下回歸與分類的區別： 
 分類和迴歸的區別在於輸出變數的型別。 定量輸出稱為迴歸，或者說是連續變數預測； 定性輸出稱為分類，或者說是離散變數預測。舉個例子： 
 預測明天的氣溫是多少度，這是一個迴歸任務； 預測明天是陰、晴還是雨，就是一個分類任務； 
 決策樹三種演算法特性對比： 
  

  
 

    

    
    Spark隨機森林RandomForest
       
 
 位於ml/tree/impl/目錄下。mllib目錄下的隨機森林演算法也是呼叫的ml下的RandomForest。ml是mllib的最新實現，將來是要替換掉mllib庫的。 
  
   
    
    RandomForest核心程式碼 
      
      train方法 
      

  
 

    

    
    Spark隨機森林演算法實踐
       
 
  
   
    
    例子1 
     
  
 object RunRF { 
   def main(args: Array[String]) { 
     val sparkConf = new SparkConf().setAppName( 

  
 

    

    
    一文帶你弄懂Livy——基於Apache Spark的REST服務
      背景 
Apache Spark作為當前最為流行的開源大資料計算框架，廣泛應用於資料處理和分析應用，它提供了兩種方式來處理資料：一是互動式處理，比如使用者使用spark-shell或是pyspark指令碼啟動Spark應用程式，伴隨應用程式啟動的同時Spark會在當前終端啟動REPL(Read–Eval–Pr 

  
 

    

    
    Spark隨機森林演算法對資料分類（一）——計算準確率和召回率
      
							
							
							1.召回率和正確率計算

對於一個K元的分類結果，我們可以得到一個K∗K的混淆矩陣,得到的舉證結果如下圖所示。 


從上圖所示的結果中不同的元素表示的含義如下： 
mij ：表示實際分類屬於類i，在預測過程中被預測到分類j

對於所有的mij可以概括為四種方式 

  
 

    

    
    Spark 隨機森林演算法原理、原始碼分析及案例實戰
      
                
圖 1. Spark 與其它大資料處理工具的活躍程度比較
回頁首
環境要求
作業系統：Linux，本文采用的 Ubuntu 10.04，大家可以根據自己的喜好使用自己擅長的 Linux 發行版Java 與 Scala 版本：Scala 2.10.4，Java 1.7Spar 

  
 

    

    
    基於結構化隨機森林的DME病灶分割
      
							
							
							Learning layer-specific edges for segmenting retinal layers with large deformations

作者：S. P. K. KARRI 
來源：2016 BOE 
摘要：本文提出了一種結構化學 

  
 

    

    
    決策樹相關演算法——Bagging之基於CART的隨機森林詳細說明與實現
      
							
							
							1 前言

1.1 本篇部落格主要記錄的是基於CART決策樹實現的隨機森林演算法，主要是從以下四個方面介紹: CART決策樹的構建思想；整合學習中的Bagging思想；基於CART決策樹的隨機森林程式碼實現；隨機森林不易過擬合的分析。(其中不易過擬合併不是說隨機 

  
 

    

    
    基於OpenCV、隨機森林演算法實現的影象分類識別系統
      
								
								            
							
							
							


開發環境jupyter notebook 



import cv2
import os
import pickle                               #持久化
imp 

  
 

    

    
    機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和 隨機森林
       
  
  
 
 
  特徵挑選
  
   1 說明
   2 程式碼使用方法
   3 核心程式碼說明
   
    3.1 IV值挑選特徵
    3.2 隨機森林挑選特徵
    3.3 將 IV值 和 隨機森林的特徵結合
    3.4 訓練模型輸出結果
   
   4 結果對比
   5  

  
 

    

    
    客戶逾期貸款預測[8] - 特徵選擇(iv值、隨機森林)
       
 
 任務 
        分別用IV值和隨機森林挑選特徵，再構建模型，進行模型評估 
   
 1 利用iv值挑選特徵 
        這次暫時先用學長計算好的iv值挑選特徵，之後再嘗試自己計算iv值。選擇iv 

  
 

    

    
    SPARK官方例項：兩種方法實現隨機森林模型（ML/MLlib）
      
                在spark2.0以上版本中，存在兩種對機器學習演算法的實現庫MLlib與ML，比如隨機森林：org.apache.spark.mllib.tree.RandomForest
和org.apache.spark.ml.classification.RandomForestCl 

  
 

    

    
    Spark MLlib RandomForest（隨機森林）建模與預測
      
							
							
							我要做的是發現異常使用者，而我們之前沒有已經打上異常不異常標籤的樣本，所以對原始資料進行清洗、特徵工程、降維後用Mahout/R做的聚類，
打上了標籤，本來打算繼續用Mahout/R做分類，Mahout太慢，而用R實現KNN、RandomForest之後發現無法 

  
 

    

    
    隨機森林算法demo python spark
      and   led   !=   stc   gin   隨機   相對   overfit   resin    
關鍵參數
最重要的，常常需要調試以提高算法效果的有兩個參數：numTrees，maxDepth。

numTrees（決策樹的個數）：增加決策樹的個數會降低預測結果的方差，這樣在測試時會有更高 

  
 

    

    
    Apache Spark 2.2中基於成本的優化器（CBO）（轉載）
      ons   roc   art   3.4   post   tinc   ner   sort   重排序   Apache Spark 2.2最近引入了高級的基於成本的優化器框架用於收集並均衡不同的列數據的統計工作 (例如., 基（cardinality）、唯一值的數量、空值、最大最小值、平均/最大長度， 

  
 

    

    
    OpenCV3 SVM ANN Adaboost KNN 隨機森林等機器學習方法對OCR分類
       
 
 轉摘自http://www.cnblogs.com/denny402/p/5032839.html 
 opencv3中的ml類與opencv2中發生了變化，下面列舉opencv3的機器學習類方法例項： 
 用途是opencv自帶的ocr樣本的分類功能，其中神經網路和adaboost訓練速度很慢，效 

  
 

    

    
    Spark-MLlib的快速使用之三（隨機森林）
       
 
 （1）描述資訊 
 隨機森林演算法是機器學習、計算機視覺等領域內應用極為廣泛的一個演算法，它不僅可以用來做分類，也可用來做迴歸即預測，隨機森林機由多個決策樹構成，相比於單個決策樹演算法，它分類、預測效果更好，不容易出現過度擬合的情況。 
 隨機森林演算法基於決策樹，在正式講解隨機森林演算法之前，先來