1. 程式人生 > >機器學習極簡入門教程(三)

機器學習極簡入門教程(三)

這是機器學習入門教程系列的第三部分,點選這裡跳轉到第一部分,點選這裡跳轉到第二部分。

part6

通過前面的學習,我們掌握了用已有資料對目標進行預測的方法。在使用模型的時候,有些人或許會好奇,模型究竟是怎樣的?這裡我們通過一個獨特的視角——部分依賴圖(Partial Dependence Plots)來認識模型。

定義

部分依賴圖研究的是一組目標特徵和目標函式之間的依賴關係。通俗說:部分依賴圖顯示每個變數或因素對模型預測的影響。

完整程式碼

FILE_PATH ="C:\\Users\\Administrator\\Desktop\\kaggle\\data\\"
FILE_INDEX ="melb_data.csv"
# TEST_INDEX="test.csv" # TRAIN_INDEX="train.csv" import pandas as pd from sklearn.ensemble import GradientBoostingRegressor,GradientBoostingClassifier from sklearn.ensemble.partial_dependence import partial_dependence,plot_partial_dependence from sklearn.preprocessing import Imputer cols_to_use = ['Distance'
, 'Landsize', 'BuildingArea'] def get_some_data(): data =pd.read_csv(FILE_PATH+FILE_INDEX) y = data.Price X = data[cols_to_use] my_impute = Imputer() impute_X = my_impute.fit_transform(X) return impute_X,y X,y = get_some_data() my_model = GradientBoostingRegressor() my_model.fit(X,y) my_plots =plot_partial_dependence(my_model,features=[0
,1,2], X=X,feature_names=cols_to_use, grid_resolution=10) import matplotlib.pyplot as plt plt.show()
  • 實驗資料請到前幾章尋找。
  • matplotlib這個模組後面會有講到。
  • 部分依賴關係的計算是在模型擬合之後。

結果顯示

結果示意圖.png