隨機森林篩選變數（Python實現）

阿新 • • 發佈：2019-02-15

#文章轉自每日一Python公眾號

當資料集的特徵過多時，容易產生過擬合，可以用隨機森林來在訓練之後可以產生一個各個特徵重要性的資料集，利用這個資料集，確定一個閾值，選出來對模型訓練幫助最大的一些特徵，篩選出重要變數後可以再訓練模型；

本文所用資料集是從kaggle網站上下載的lend club資料，通過隨機森林篩選出對預測是否逾期的重要性變數：

# 首先匯入資料，檢視資料集的基本情況：
df = pd.read_csv('loan.csv')
df.head()
df.shape
資料集共887379行，74列

#然後轉換目標值，將Charged Off和Late (31-120 days歸為壞客戶1，其餘歸為0
df['loan_status'].unique()
df['y'] = df['loan_status'].map(lambda x: int((x == 'Charged Off') | (x == 'Late (31-120 days')))
df.drop('loan_status', axis=1,inplace=True)

接下來處理特徵變數，先剔除一些對預測無關的貸後和貸中變數：

df.drop(['id', 'member_id', 'url','next_pymnt_d','last_pymnt_d',
          'pymnt_plan','last_credit_pull_d','total_rec_prncp',
          'total_rec_int','out_prncp','last_pymnt_amnt',
          'installment','total_pymnt_inv', 'total_rec_prncp',
          'total_rec_int'], axis=1,inplace=True)

再刪除缺失值大於90%的變數：

df.dropna(thresh = len(df) * 0.1 , axis=1,inplace=True)

接下來補全缺失值，對缺失值較多變數，將缺失值作為一種狀態，對缺失值較少的變數，數值型用平均值補全，類別型用眾數補全：

#對於desc有描述的標為1，空值標為0
def Desc(x):
    if type(x).__name__ == 'float':
        return 0
    else:
        return 1
df['desc']= df['desc'].map(Desc)

#emp_title空值用“空值”補全
df['emp_title'] = df['emp_title'].fillna('missing')

'''mths_since_last_delinq，mths_since_last_record ，
mths_since_last_major_derog ,tot_coll_amt,tot_cur_bal,
total_rev_hi_lim 用-1代替'''
for col in ['mths_since_last_delinq','mths_since_last_record',
             'mths_since_last_major_derog','tot_coll_amt',
             'tot_cur_bal','total_rev_hi_lim']:
    df[col].fillna(-1,inplace=True)

#剩餘缺失值較少的，數值型變數用平均值代替

for col in ['annual_inc','acc_now_delinq',
             'collections_12_mths_ex_med','total_acc',
             'pub_rec','open_acc','inq_last_6mths','delinq_2yrs',
             'revol_util']:
    df[col].fillna(df[col].mean(), inplace=True)

另外再構造一個衍生變數，算申請時間issue_d和第一次借貸時間earliest_cr_line之間的月份差值

import datetime
def ConvertDate(x):

    mth_dict = {'Jan': 1, 'Feb': 2, 'Mar': 3, 'Apr': 4, 'May': 5, 
                'Jun': 6, 'Jul': 7, 'Aug': 8, 'Sep': 9, 'Oct': 10,
                'Nov': 11, 'Dec': 12}
    yr = int(x[4:6])
    mth = mth_dict[x[:3]]
    return datetime.datetime(yr, mth, 1)
df['issue_d'] = df['issue_d'].map(lambda x :ConvertDate(x))
df['earliest_cr_line'] = df['earliest_cr_line'].map(lambda x :ConvertDate(x))

from dateutil.relativedelta import relativedelta
def MonthGap(earlyDate, lateDate):
    if lateDate > earlyDate:
        gap = relativedelta(lateDate, earlyDate)
        yr = gap.years
        mth = gap.months
        return yr*12 + mth
    else:
        return 0
df['earliest_cr_to_app'] = df.apply(lambda x : MonthGap(x.earliest_cr_line, x.issue_d),axis=1)

df.drop(['issue_d', 'earliest_cr_line'],axis=1, inplace=True)

因為決策樹只能處理數值型和標稱型變數，所以轉換一下類別變數

'''因為本文只運用隨機森林來判斷變數的重要性，而樹模型不需要One-Hot編碼，
所以只對型別型變數LabelEncoding就可以'''

#term ,將months替換成空值
df['term']= df['term'].apply(lambda x :int(x.replace("months" , "")))
cols = df.select_dtypes(include=['O']).columns.tolist()
for col in cols:
    df[col] = preprocessing.LabelEncoder().fit_transform(df[col])

訓練模型

#訓練模型，這裡隨機森林模型引數都用預設值
y = df['y']
x = df.drop('y', axis=1)
clf = RandomForestClassifier()
clf.fit(x, df['y'])

篩選變數：

importance = clf.feature_importances_
indices = np.argsort(importance)[::-1]
features = x.columns
for f in range(x.shape[1]):
    print(("%2d) %-*s %f" % (f + 1, 30, features[f], importance[indices[f]])))

現在各變數對是否逾期的重要性就計算出來了，如果接下來運用這些變數預測是否逾期的模型是樹模型或者樸素貝葉斯模型，就可以直接通過重要性大於某個閾值或者重要性排名大於某個某個閾值來篩選出變數訓練模型了，如果是接下來用迴歸模型或者線性模型，還需要考慮各個變數之間的共線性；

隨機森林篩選變數（Python實現）

#文章轉自每日一Python公眾號當資料集的特徵過多時，容易產生過擬合，可以用隨機森林來在訓練之後可以產生一個

算法：IP分割問題（python實現）

今天群裏有個朋友出了個題，是一家公司的面試題，題目如下（補充：對於ip0開頭的也是無效的，如分割後001.1.1.1這種是不可以的）：　　分析：這裏我們舉一個最簡單的例子1.1.1.12.2.2.2。首先能想到的解決方法肯定是使用循環了，我們可以寫2個循環嵌套（有點像冒泡排序）從第0個位置截取1個，從

遞歸——漢諾塔問題（python實現）

最大大盤其他 pytho 每次直接 print int b- 規則每次移動一個盤子任何時候大盤子在下面，小盤子在上面方法假設共n個盤子當n=1時：直接把A上的一個盤子移動到C上（A->C）當n=2時：把小盤子從A放到B上（A->

堆排序（Python實現）

int 時間復雜度 pri 開始堆排序空間復雜度繼續末尾小頂堆堆排序（Heap Sort）堆是一棵具有以下性質的完全二叉樹：大頂堆：每個結點的值都大於或等於其左右孩子結點的值小頂堆：每個結點的值都小於或等於其左右孩子結點的值堆排序的主要思想：將

求數組中兩兩相加等於20的組合（Python實現）

def n+1 odi lse java程序員 urn nlogn end 數組題目求數組中兩兩相加等於20的組合。例：給定一個數組[1, 7, 17, 2, 6, 3, 14]，這個數組中滿足條件的有兩對：17+3=20, 6+14=20。解析分為兩個步驟：

支援向量機（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第六章支援向量機演算法的Python實現程式碼。 1 參考連結（1）支援向量機通俗導論(理解SVM的三層境界) （2）支援向量機—SMO論文詳解（序列最小最優化演算法） 2 實現程式

Logistic迴歸（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第五章 Logistic迴歸演算法的Python實現程式碼。 1 參考連結機器學習實戰 2 實現程式碼 from numpy import * def loadDataSet():

樸素貝葉斯（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第四章基於概率論的分類方法：樸素貝葉斯演算法的Python實現程式碼。 1 參考連結機器學習實戰 2 實現程式碼 from numpy import * import feedpa

最短路徑問題（python實現）

解決最短路徑問題：（如下三種演算法）（1）迪傑斯特拉演算法（Dijkstra演算法）（2）弗洛伊德演算法（Floyd演算法）（3）SPFA演算法第一種演算法： Dijkstra演算法廣度優先搜尋解決賦權有向圖或者無向圖的單源最短路徑問題.是一種貪心的策略演算法的思路宣告一

分別用遞迴、迴圈、bisect實現二叉查詢（python實現）

1、遞迴實現二叉查詢 def binary_search_recursion(lst,target,low,high): if high < low: return None middle = (low + high)//2 if lst[middl

一分鐘學會讀csv檔案和寫csv檔案（python實現）

import csv with open('Python-Predict/Data/train.csv') as tra: rdr = csv.reader(tra) items = list(rdr) print("rdr:",rdr) print(items)

leetCode題目--反轉字串（python實現）

題目編寫一個函式，其作用是將輸入的字串反轉過來。示例 1: 輸入: "hello" 輸出: "olleh" 示例 2: 輸入: "A man, a plan, a canal: Panama" 輸出: "amanaP :lanac a ,

LeetCode題目--旋轉影象（python實現）

題目給定一個 n × n 的二維矩陣表示一個影象。將影象順時針旋轉 90 度。說明：你必須在原地旋轉影象，這意味著你需要直接修改輸入的二維矩陣。請不要使用另一個矩陣來旋轉影象。示例 1: 給定 matrix =

LeetCode題目--驗證迴文字串（python實現）

題目給定一個字串，驗證它是否是迴文串，只考慮字母和數字字元，可以忽略字母的大小寫。說明：本題中，我們將空字串定義為有效的迴文串。示例 1: 輸入: "A man, a plan, a canal: Panama" 輸出: true 示例 2:

LeetCode題目--有效的字母異位詞（python實現）

題目給定兩個字串 s 和 t ，編寫一個函式來判斷 t 是否是 s 的一個字母異位詞。示例 1: 輸入: s = "anagram", t = "nagaram" 輸出: true

LeetCode題目--字串中的第一個唯一字元（python實現）

題目給定一個字串，找到它的第一個不重複的字元，並返回它的索引。如果不存在，則返回 -1。案例: s = "leetcode" 返回 0. s = "loveleetcode", 返回 2. 注意事項：您可以假定該字串只包含小寫字母。 p

LeetCode題目--顛倒整數（python實現）

題目給定一個 32 位有符號整數，將整數中的數字進行反轉。示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21

LeetCode題目-- 最長公共字首（python實現）

題目編寫一個函式來查詢字串陣列中的最長公共字首。如果不存在公共字首，返回空字串 ""。示例 1: 輸入: ["flower","flow","flight"] 輸出: "fl" 示例 2: 輸入: ["dog",

LeetCode題目--報數（python實現）

題目報數報數序列是指一個整照其中的整數的順序進數序列，按行報數，得到下一個數。其前五項如下： 1. 1 2. 11 3. 21 4. 1211 5. 111221 1 被讀作 "one 1

LeetCode題目--實現strStr() （python實現）

題目實現 strStr() 函式。給定一個 haystack 字串和一個 needle 字串，在 haystack 字串中找出 needle 字串出現的第一個位置 (從0開始)。如果不存在，則返回 -1。示例 1:

隨機森林篩選變數（Python實現）

相關推薦