1. 程式人生 > 實用技巧 >貸款違約預測第三週週報

貸款違約預測第三週週報

進一步資料分析

  • 上一次對資料進行了簡單的特徵值處理,填補了缺失值,將資料格式做了處理,用基本原版的資料跑了一遍模型,成績一般,所以這周將對資料進行進一步的分析處理,篩選出有更有意義的特徵資料來進行訓練,從而得出更好的結果。
  • 首先根據常識分析,判斷是否違約,有幾個特徵值是一般來說比較關鍵的:貸款金額、貸款人的年收入。這兩個變數是直觀來看,一個人是否會違約的關鍵資料,比如我貸款1塊錢,那我沒道理違約,我年收入一億元,那我大概率也不會違約。當然這只是直觀的想法,具體的分析在統計圖上看出:
    在這裡插入圖片描述
  • 首先是貸款金額的資料分佈圖,從圖中可以看出,大部分的貸款金額在5K-25K之間,低於5K和高於25K的貸款金額量較少。
  • 再看貸款金額的違約情況:
    在這裡插入圖片描述
  • 圖中1表示違約了,0表示沒有違約,所以可以看出,在貸款金額小於10K左右的時候,違約的人數較少,而大於10K的時候,違約的人數較多,這也可以作為一個比較重要的特徵值來加入模型的訓練。
  • 然後再看年收入的情況:
    在這裡插入圖片描述
  • 圖中可以看出,年收入差距非常大。再看和是否違約的關係圖:
    在這裡插入圖片描述
  • 圖中只能大致看出違約的人數較多,在高於一定值後基本是不會違約的。但是由於資料的差異太大,所以在此暫時不考慮作為特徵值參與模型的訓練。

小結

  • 本週主要是在上週的模型中,做了資料的分析處理,根據直觀的感受,抓出兩個特徵值來進行分析,暫時將年收入這個特徵值放棄,下週主要是繼續進行資料分析處理,然後將處理後的資料再跑一遍模型,看看成績是否比上次好一些,然後一步一步優化自己的模型,從而將結果做到最好。