1. 程式人生 > >模型建立流程

模型建立流程

資料預處理:

當接收到資料以後,我們應該使用print(pdData.describe())觀察資料,是否有缺失值,使用pdData.head()方法,去檢視有哪些特徵值進行數值轉換,將字串變成0,1。

資料缺失:數值型採用均值填充,字串型採用眾數填充。pdData["Age"].fillna(pdData["Age"].median());  

數值轉換:pdData.loc(pdData["Sex"]=="male","Sex")=0   使用print(pdData["Sex"].unique())檢視"Sex"特徵值


資料二分類:選擇數值型的變數作為特徵,判斷目標值

線性迴歸解決問題:

 首先匯入sklearn庫中的LinearRegression和交叉驗證cross_validation模組的KFold庫

 1.建立特徵陣列 2.獲得LinearRegression物件alg 3.利用KFold建立物件,需要傳入資料總行數pdData.shape[0]

以及交叉驗證次數

 4.使用for迴圈,遍歷kfold中的訓練和測試集 5.獲取預測的測試集和預測的結果集 6.使用fit()方法進行訓練

7.使用predict()預測

隨機森林解決問題:

 匯入cross_validation中的KFold和RendomForestClassifier


 1.建立特徵陣列 2.獲得隨機森林分類器物件alg 3.交叉驗證的物件kf 4.使用cross_val_score()獲得結果。

引數的選擇:

 使用GridSearchCV這個庫

 1.建立隨機樹引數字典 2.GridSearchCV()建立物件grid 3.使用fit() 4.輸出結果

特徵選擇:

 判斷每個特徵對結果的影響