使用者貸款風險預測-datacastle競賽題目

阿新 • • 發佈：2019-02-03

##自己是大菜鳥一枚，datacastle比賽題目，用的是Logistic，做出的結果不好，目前只排在200多名。先放在部落格上面，專案比較緊張，還得學一些javaweb的東西，就怕以後沒時間做了。。。。

# -*- coding: utf-8 -*-
"""
Created on Tue Jan 10 09:54:12 2017
###Datacastle的‘使用者貸款風險預測’競賽題目###
#初步想法是利用邏輯斯蒂迴歸，特徵的選擇對結果影響很大，有時間的話多看看特徵選擇方面的東西
"""
import pandas as pd
from sklearn import preprocessing
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

class DataCastle(object):
    def __init__(self):
        self.name = "<<- User loan forecast match ->>"
        self.result = "result.csv"
        
    #讀取使用者資訊表 並返回
    def readUserInfo(self):
        user_info_train = readData("train/user_info_train.txt")
        user_info_test = readData("test/user_info_test.txt")
        col_names = ['userid', 'sex', 'occupation', 'education', 'marriage', 'household']
        user_info_train.columns = col_names
        user_info_test.columns = col_names
        user_info = pd.concat([user_info_train, user_info_test])
        user_info.index = user_info['userid']
        user_info.drop('userid',axis=1,inplace=True)
        return user_info
    
    #讀取使用者銀行賬單表 對賬單資料求和並返回
    def readBankDetail(self):
        bank_detail_train = readData("train/bank_detail_train.txt")
        bank_detail_test = readData("test/bank_detail_test.txt")
        col_names = ['userid', 'time_bank', 'tradeType', 'tradeMoney', 'incomeTag']
        bank_detail_train.columns = col_names
        bank_detail_test.columns = col_names
        bank_detail_pre = pd.concat([bank_detail_train,bank_detail_test])
        bank_detail = (bank_detail_pre.loc[:,['userid','tradeType', 'tradeMoney']]).groupby(['userid','tradeType']).sum()
        bank_detail = bank_detail.unstack()
        bank_detail.columns = ['income','outcome']
        return bank_detail
        
    #讀取使用者的瀏覽歷史 對瀏覽資料求和並返回
    def readBrowseHistory(self):
        browse_history_train = readData("train/browse_history_train.txt")
        browse_history_test = readData("test/browse_history_test.txt")
        col_names = ['userid', 'time_browse', 'browseData', 'browseTag']
        browse_history_train.columns = col_names
        browse_history_test.columns = col_names
        browse_history_pre = pd.concat([browse_history_train, browse_history_test])
        browse_history = (browse_history_pre.loc[:,['userid','browseData']]).groupby(['userid']).sum()
        return browse_history
        
    #讀取信用卡賬單記錄 取均值並返回
    def readBillDetail(self):
        bill_detail_train = readData("train/bill_detail_train.txt")
        bill_detail_test = readData("test/bill_detail_test.txt")
        col_names = ['userid', 'time_bill', 'bank_id', 'prior_account', 'prior_repay',
             'credit_limit', 'account_balance', 'minimun_repay', 'consume_count',
             'account', 'adjust_account', 'circulated_interest', 'avaliable_balance',
             'cash_limit', 'repay_state']
        bill_detail_train.columns = col_names
        bill_detail_test.columns = col_names
        bill_detail_pre = pd.concat([bill_detail_train,bill_detail_test])
        bill_detail_pre.drop('bank_id',axis=1,inplace=True)
        bill_detail = bill_detail_pre.groupby(['userid']).mean()
        return bill_detail
        
    #讀取使用者發放貸款時間 並返回
    def readLoanTime(self):
        loan_time_train = readData("train/loan_time_train.txt")
        loan_time_test = readData("test/loan_time_test.txt")
        col_names = ['userid','loanTime']
        loan_time_train.columns = col_names
        loan_time_test.columns = col_names
        loan_time = pd.concat([loan_time_train,loan_time_test])
        loan_time.index = loan_time['userid']
        loan_time.drop('userid',axis=1,inplace=True)
        return loan_time
        
     #讀取類別資訊
    def readTarget(self):
        target = readData("train/overdue_train.txt")
        target.columns = ['userid', 'label']
        target.index = target['userid']
        target.drop('userid',axis = 1,inplace = True)
        return target
    
    #利用邏輯斯蒂迴歸
    def logisticMethod(self):
        
        user_info = self.readUserInfo()
        bank_detail = self.readBankDetail()
        bill_detail = self.readBillDetail()
        loan_time = self.readLoanTime()
        browse_history = self.readBrowseHistory()
        target = self.readTarget()
        
        loan_data = user_info.join(bank_detail,how='outer')
        loan_data = loan_data.join(bill_detail,how='outer')
        loan_data = loan_data.join(browse_history,how='outer')
        loan_data = loan_data.join(loan_time,how='outer')
        loan_data = loan_data.fillna(0.0)
        
        #對資料進行歸一化
        datas = loan_data.values
        datas = preprocessing.scale(datas)
        col_names = list(loan_data.columns)
        nums=0
        for col in col_names:
            loan_data.loc[:,[col]] = datas[:,nums]
            nums += 1
        
        #對資料進行劃分並且進行訓練
        train = loan_data.iloc[0: 55596, :]
        test = loan_data.iloc[55596:, :]
        train_X, test_X, train_y, test_y = train_test_split(train,target,test_size = 0.2,random_state = 0)
        train_y = train_y['label']
        test_y = test_y['label']
        lr_model = LogisticRegression(C = 1.0,penalty = 'l2')
        lr_model.fit(train_X, train_y)
        #驗證集進行預測
        pred_test = lr_model.predict(test_X)
        #對預測結果進行評估
        print classification_report(test_y, pred_test)
        
        #對測試集生成結果並存儲為csv格式
        pred = lr_model.predict_proba(test)
        result = pd.DataFrame(pred)
        result.index = test.index
        result.columns = ['0', 'probability']
        result.drop('0',axis = 1,inplace = True)
        print result.head(5)      
        result.to_csv(self.result)
        
#資料讀取
def readData(filename):
    filepath = './'+filename
    data = pd.read_csv(filepath,header=None)
    return data

使用者貸款風險預測-datacastle競賽題目

##自己是大菜鳥一枚，datacastle比賽題目，用的是Logistic，做出的結果不好，目前只排在200多名。先放在部落格上面，專案比較緊張，還得學一些javaweb的東西，就怕以後沒時間做了。。。。 # -*- coding: utf-8 -*- """

使用者貸款風險預測之Top10初體驗

寫在前面： DataCastle智慧中國杯全國大資料創新應用大賽：本次參加的是三大賽題中的使用者貸款風險預測（演算法競賽）距離上次發博文又過去近兩個月了，堅持寫部落格是件不容易的事，還得繼續努力！中間過了個年，打了個比賽，時間過得真快，不過沒有閒著，用寒假時

一戰成名,使用者貸款風險預測參賽程式碼與資料集分享

向AI轉型的程式設計師都關注了這個號???大資料探勘DT資料分析公眾號： datadw隊伍

天池大資料競賽——糖尿病遺傳風險預測賽後總結（一）

天池大資料競賽——天池精準醫療大賽人工智慧輔助糖尿病遺傳風險預測賽後總結天池大資料競賽官方網址（連結）天池精準醫療大賽是我第一次正式參加與學習的資料競賽，在這十幾天的過程中，學習到很多參與這些資料競賽的技巧和知識，雖然結果並不理想，但是總歸是

使用基於Apache Spark的隨機森林方法預測貸款風險

在本文中，我將向大家介紹如何使用Apache Spark的spark.ml庫中的隨機森林演算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基於DataFrame，它提供了大量的介面，幫助使用者建立和調優機器學習工作流。結合dataframe使用spa

演算法競賽入門經典（第二版）第三章陣列和字串中競賽題目例題3-5 生成元

如果x加上x的各個數字之和得到y，就說x是y的生成元。給出n（1<=n<=100000）求最小生成元。無解輸出0.例如n=216時的解為198 分析本題看起來是個數學題實則不然。假設所求生成元為m不難發現m<n.換句話說只需列舉所有的m<n看看有沒有哪個數是n的

演算法競賽入門經典（第二版）第三章陣列和字串中競賽題目例題3-4猜數字

實現一個經典猜數字遊戲。給定答案序列和使用者猜的序列，統計有多少數字位置正確A，有多少數字在兩個序列都出現過但位置不對B 輸入包含多組資料。每組第一行為序列長度為n，第二行是答案序列，接下來是若干猜測序列。猜測序列全0時該組資料結束。n=0時輸入結束 [分析] 直接統計可得A，為

演算法競賽入門經典（第二版）第三章陣列和字串中競賽題目選講例題3-3迴文詞

輸入一個字串，判斷它是否為迴文串以及映象串。輸入字串保證不含數字0。所謂迴文串，就是反轉以後和原串相同，如abba和madam。所有映象串，就是左右映象之後和原串相同，如2S和3AIAE。注意，並不是每個字元在映象之後都能得到一個合法字元。在本題中，每個字元的映象如圖3-3所示（空白

演算法競賽入門經典（第二版）第三章陣列和字串中競賽題目選講例題3-2WERTYU

把手放在鍵盤上時，稍不注意就會往右錯一位。這樣，輸入Q會變成輸入W，輸入J會變成輸入K等。輸入一個錯位後敲出的字串（所有字母均為大寫），輸出打字員本來想打出的句子。輸入保證合法，即一定是錯位之後的字串。例如輸入中不會出現大寫字母A。 #include<stdio.h> ch

演算法競賽入門經典（第二版）第三章陣列和字串中競賽題目選講1

3-1例題tex中的引號在TeX中，左雙引號是“"”,右雙引號是“"”,輸入一篇包含雙引號的文章你的任務是把它轉換成tex的格式樣例輸入: “you are smart，” 樣例輸出 “you are smart，” 使用fgetc(fin)可以開啟的檔案f

2018年高教社杯全國大學生數學建模競賽題目

簡單地說：數模競賽就是對實際問題的一種數學表述。　具體一點說：數學模型是關於部分現實世界為某種目的的一個抽象的簡化的數學結構。　更確切地說：數學模型就是對於一個特定的物件為了一個特定目標，根據特有的內在規律，做出一些必要的簡化假設，運用適當的數學工具，得到的一個數學結構。數學結構可以是數

個人貸款違約預測模型練習

重點為分類模型的資料理解與資料準備資料介紹賬戶表（Accounts）:每條記錄描述一個賬戶的靜態資訊顧客資訊表（Clients）:每條記錄描述一個客戶的特徵資訊許可權分配表（Disp）：每條記錄描述顧客和賬戶之間的關係，以及客戶操作賬戶的許

python課程設計作業—貸款發放預測

1.應用調研貸款業務是銀行最基本、最主要的資產業務，是銀行獲得利潤的主要來源，也是一項風險性較大的資產。其風險性在於如果被貸款人沒有償還貸款的能力，那麼銀行就會產生壞賬，造成虧損。因此在銀行業務中常常需要做很多是否發放貸款的調研。本課程設計旨在利用python課堂上學習到的nump

客戶貸款逾期預測[7] - 模型融合

任務用你目前評分最高的模型作為基準模型，和其他模型進行stacking融合，得到最終模型及評分。實現 #簡單調包實現 from mlxtend.classifier import StackingCVClassi

客戶貸款逾期預測[5] - 特徵工程

目錄任務資料探索特徵刪除缺失值處理異常值處理特徵生成特徵合併特徵縮放資料歸一化資料標準化相關性分析劃分訓練集、模型評估和選擇參考任務

客戶貸款逾期預測[4]-記錄評分、繪製roc曲線

任務記錄五個模型（邏輯迴歸、svm、決策樹、xgboost、lightgbm）關於precision、recall score、f1 score、roc、aoc的評分表格。實現 # -*- coding: utf-8 -*- ""

客戶貸款逾期預測[3]-xgboost和lightgbm

任務根據客戶貸款資料預測客戶是否會逾期，1表示會，0表示不會。實現 # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018 @author: keepi """ im

客戶貸款逾期預測[2]-svm和決策樹模型

任務本次以信用貸款資料作為練習資料，目的是學會使用常用的機器學習模型，用它們預測貸款客戶是否會逾期，給到的資料已經包含了標籤，列名是status，有0和1兩種值，0表示未逾期，1表示逾期，所以這是一個二分類的問題。資料處理 &n

客戶貸款逾期預測[1]-邏輯迴歸模型

任務預測貸款客戶是否會逾期，status為響應變數，有0和1兩種值，0表示未逾期，1表示逾期。程式碼： # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018

2018年高教社杯全國大學生數學建模競賽題目問題B 智慧RGV的動態排程策略

問題B 智慧RGV的動態排程策略圖1是一個智慧加工系統的示意圖，由8臺計算機數控機床（Computer Number Controller，CNC）、1輛軌道式自動引導車（Rail Guide Vehicle，RGV）、1條RGV直線軌道、1條上料傳送帶、1條下料傳

使用者貸款風險預測-datacastle競賽題目

相關推薦