機器學習極簡入門教程(三)
阿新 • • 發佈:2018-12-09
這是機器學習入門教程系列的第三部分,點選這裡跳轉到第一部分,點選這裡跳轉到第二部分。
part6
通過前面的學習,我們掌握了用已有資料對目標進行預測的方法。在使用模型的時候,有些人或許會好奇,模型究竟是怎樣的?這裡我們通過一個獨特的視角——部分依賴圖(Partial Dependence Plots)來認識模型。
定義
部分依賴圖研究的是一組目標特徵和目標函式之間的依賴關係。通俗說:部分依賴圖顯示每個變數或因素對模型預測的影響。
完整程式碼
FILE_PATH ="C:\\Users\\Administrator\\Desktop\\kaggle\\data\\"
FILE_INDEX ="melb_data.csv"
# TEST_INDEX="test.csv"
# TRAIN_INDEX="train.csv"
import pandas as pd
from sklearn.ensemble import GradientBoostingRegressor,GradientBoostingClassifier
from sklearn.ensemble.partial_dependence import partial_dependence,plot_partial_dependence
from sklearn.preprocessing import Imputer
cols_to_use = ['Distance' , 'Landsize', 'BuildingArea']
def get_some_data():
data =pd.read_csv(FILE_PATH+FILE_INDEX)
y = data.Price
X = data[cols_to_use]
my_impute = Imputer()
impute_X = my_impute.fit_transform(X)
return impute_X,y
X,y = get_some_data()
my_model = GradientBoostingRegressor()
my_model.fit(X,y)
my_plots =plot_partial_dependence(my_model,features=[0 ,1,2],
X=X,feature_names=cols_to_use,
grid_resolution=10)
import matplotlib.pyplot as plt
plt.show()
- 實驗資料請到前幾章尋找。
- matplotlib這個模組後面會有講到。
- 部分依賴關係的計算是在模型擬合之後。