1. 程式人生 > >金融反欺詐模型----專案實戰--機器學習

金融反欺詐模型----專案實戰--機器學習

機器學習:從源資料清洗到特徵工程建立談金融反欺詐模型訓練

本文旨在通過一個完整的實戰例子,演示從源資料清洗到特徵工程建立,再到模型訓練,以及模型驗證和評估的一個機器學習的完整流程。由於初識機器學習,會比較多的困惑,希望通過藉助這個實戰的例子,可以幫助大家對機器學習了一個初步的認識。   本文旨在通過一個完整的實戰例子,演示從源資料清洗到特徵工程建立,再到模型訓練,以及模型驗證和評估的一個 機器學習的完整流程。由於初識機器學習,會比較多的困惑,希望通過藉助這個實戰的例子,可以幫助大家對機器學習了一個初步的認識。

【資料來源】

本文的資料來源於Lending Club網站的公開資料,資料集為自LendingClub平臺發放的2016年Q3的總計99122條貸款記錄。

Lending Club是美國最大的P2P網貸交易平臺,利用網路技術直接連線了個人投資者和個人借貸者,縮短資金流通的細節,繞過傳統的大銀行等金融機構,使得投資者和借貸者都能得到更多實惠。對於投資者來說,可以獲得更好的回報;對於借貸者來說,則可以獲得相對較低的貸款利率。

在借貸行業中,投資者向借貸者提供貸款以獲取利息。如果借貸者順利償還貸款,投資者則獲得利息收益。如果借貸者無法償還貸款,投資者則損失貸款本金。因此,對於投資者來說,需要預測借貸者無法償還貸款的風險,最大程度地避免投資損失,最大程度地實現投資回報。

【實施步驟】

一、 總體流程說明

資料分析的開始是從瞭解你要分析的資料以及瞭解你本次機器學習的目標開始的。需要分清是分類問題,還是迴歸問題,同時需要了解資料的構造,哪些是自變數(特徵),哪個是因變數(目標變數)。就本次目標來看,因為目標變數是loan_statas(還款狀態),它是一個標稱值,因此本次是一個分類問題。

進入資料清洗階段,主要是去除一些缺失嚴重的樣式或者特徵,同時去除一些跟業務無關的特徵,以及方差比較小的特徵。建立特徵工程時,主要是對裡面字元特徵進行處理,將其轉成數值型,以及對一些資料值特徵進行歸一化等處理;模型訓練時,主要是選擇合適的演算法以及選擇合適的超引數;模型評估就是將在訓練集上執行好的模型,在測試集上進行驗證評估。

二、瞭解資料集

使用pandas讀取資料集,然後檢視資料資訊

 

 

 

 

可以看出一共包含了99122條記錄,一共有121個特徵和一個目標變數,這些列的型別分佈:float64有97個,字元型有25個。

三、 資料清洗

▲取出特徵X以及目標變數y

 

 

其中load_data是自己封裝的一個函式,用於根據targetCol來分割原來的df。

▲根據業務去掉不需要的列

目前主要包含:無關的標識欄位以及貸後欄位

 

 

▲呼叫自定義函式進行清理

 

 

主要包含的以下操作:

▪ 去除所有行以及所有的列均為nan的資料
▪ 去除缺失率高的特徵,這裡超過0.9則不考慮
▪ 去除特徵中包含例項類別太多的特徵,預設包含1000個例項則不考慮
▪ 對於數值型,如果標準差太小的,則不考慮該特徵

可以從打印出的日誌上看出,經過上一步的清洗步驟,已經從原來的121個特徵變數,降成75個特徵變數。

再看一下清洗完後,目前的特徵中樣本缺失度情況:

 

 

由圖可以目前缺失最高的mths_since_last_record在80%左右,在預設範圍內,整體情況還相對理想。

▲檢視特徵的相關程度

如果特徵之間相關度比較高的話,那就會影響分析結果,這裡對這些特徵的相關度進行排序:

 

 

從上述的相關係數的關聯情況可以看出:funded_amnt,loan_amnt,funded_amnt_inv這幾個特徵的關聯比較強,僅保留funded_amnt,去除其它兩個特徵,經過清洗後只剩下了73個特徵。

四、特徵工程

▲對目標變數的處理

檢視目標變數y的值的分佈情況

 

 

根據業務來理解,Current和Fully Paid使用者是屬於信用良好的樣本,用1表示,Late (31-120 days)和Late (16-30 days)逾期的使用者就歸於信用不好的樣本,用0表示,其它的幾類就暫時用np.nan來代替,本次暫時不分析,先刪除這些空的3912個樣本。

處理完後,目標變數的分佈如下:

 

 

▲對字元型特徵的處理

檢視當前特徵中字元型的特徵主要包含:

 

 

通過資料的分佈可以看出特徵pymnt_plan,application_type分佈很不均衡,暫時不考慮這兩個特徵。

同時將init_rate轉成float型別,將emp_length處理成int型別,對剩下的三個home_ownership,verification_status,initial_list_status型別變數做獨熱編碼,使用pd.get_dummies函式,同時去除原始的那三個欄位。

經過如上的處理,將其全部字元型的特徵轉成了數值型。

▲對整體數值型特徵的處理

這裡主要對缺失值處理,使用每個特徵的中位數進行缺失值填充。

 

 

到此已全部完成了特徵工程的建立,最終特徵工程包含95210個樣本以及 77特徵,建好的特徵工程進入下一階段的模型訓練。

五、 模型訓練

因為考慮到樣本的不均衡性,交叉驗證的方法使用StratifiedShuffleSplit方式來劃分樣本,同時學習器使用GBRT演算法,同時RandomizedSearchCV進行最優引數選擇。目前只是設定了基本的引數:

 

 

通過訓練集的充分訓練後,得到目前GBRT最優的引數如下:

 

 

然後使用這個最優的模型來對測試集進行預測:

 

 

這樣我們就得到了測試集在這個模型中跑出來的結果y_predicted陣列,然後將它與y_test進行比對就可以對該模型進行評估,具體的可以檢視2.6小結的結果。

六、模型評估

▲檢視分類報告

 

 

可以看出整體平均的精確度和召回率和F1值還是可以的,不過對於樣本0的召回率和F1值為0,可能需要進一步優化。

▲檢視學習曲線

 

 

學習曲線是一條關於樣本個數和經驗損失函式之間的曲線,通過學習曲線可以看到關於偏差、方差用於改善機器學習演算法的決策提供依據;從目前的曲線可以看出,訓練得分和測試得分基本穩定在0.972這個點,相對來說比較理想。

【結論與展望】

本文只是簡單的演示了一個完整的機器學習的流程,重點在於突出機器學習的各個實施步驟,對於整體的模型可能還有以下幾點可以優化與完善:

▪ 如何更好的處理樣本的不平衡性
▪ 是否考慮其它的演算法進行比對效果,比如xgboost
▪ 演算法的超引數調優可以增加幾個變數調優
▪ 特徵工程的建立還是稍微粗糙了些,還是可以再細化(比如特徵的組合,特徵的重要性排序,數值型特徵的歸一化處理等)