模型建立流程
阿新 • • 發佈:2019-01-03
資料預處理:
當接收到資料以後,我們應該使用print(pdData.describe())觀察資料,是否有缺失值,使用pdData.head()方法,去檢視有哪些特徵值進行數值轉換,將字串變成0,1。
資料缺失:數值型採用均值填充,字串型採用眾數填充。pdData["Age"].fillna(pdData["Age"].median());
數值轉換:pdData.loc(pdData["Sex"]=="male","Sex")=0 使用print(pdData["Sex"].unique())檢視"Sex"特徵值
資料二分類:選擇數值型的變數作為特徵,判斷目標值
線性迴歸解決問題:
首先匯入sklearn庫中的LinearRegression和交叉驗證cross_validation模組的KFold庫
1.建立特徵陣列 2.獲得LinearRegression物件alg 3.利用KFold建立物件,需要傳入資料總行數pdData.shape[0]
以及交叉驗證次數
4.使用for迴圈,遍歷kfold中的訓練和測試集 5.獲取預測的測試集和預測的結果集 6.使用fit()方法進行訓練
7.使用predict()預測
隨機森林解決問題:
匯入cross_validation中的KFold和RendomForestClassifier
1.建立特徵陣列 2.獲得隨機森林分類器物件alg 3.交叉驗證的物件kf 4.使用cross_val_score()獲得結果。
引數的選擇:
使用GridSearchCV這個庫
1.建立隨機樹引數字典 2.GridSearchCV()建立物件grid 3.使用fit() 4.輸出結果
特徵選擇:
判斷每個特徵對結果的影響