機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

阿新 • • 發佈：2021-06-23

classsklearn.tree.DecisionTreeRegressor(*,criterion='mse',splitter='best',max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_nodes=None,min_impurity_decrease=0.0,min_impurity_split=None,ccp_alpha=0.0)

幾乎所有引數，屬性及介面都和分類樹一模一樣。需要注意的是，在迴歸樹種，沒有標籤分佈是否均衡的問題，因此沒有class_weight這樣的引數。

1 重要引數，屬性及介面

criterion 迴歸樹衡量分枝質量的指標，支援的標準有三種： 1）輸入"mse"使用均方誤差mean squared error(MSE)，父節點和葉子節點之間的均方誤差的差額將被用來作為特徵選擇的標準，這種方法通過使用葉子節點的均值來最小化L2損失 2）輸入“friedman_mse”使用費爾德曼均方誤差，這種指標使用弗裡德曼針對潛在分枝中的問題改進後的均方誤差 3）輸入"mae"使用絕對平均誤差MAE（mean absolute error），這種指標使用葉節點的中值來最小化L1損失屬性中最重要的依然是feature_importances_，介面依然是apply, fifit, predict, score最核心。其中N是樣本數量，i是每一個數據樣本，fifi是模型迴歸出的數值，yi是樣本點i實際的數值標籤。所以MSE的本質，其實是樣本真實資料與迴歸結果的差異。在迴歸樹中，MSE不只是我們的分枝質量衡量指標，也是我們最常用的衡量回歸樹迴歸質量的指標，

當我們在使用交叉驗證，或者其他方式獲取迴歸樹的結果時，我們往往選擇均方誤差作為我們的評估（在分類樹中這個指標是score代表的預測準確率）。在迴歸中，我們追求的是，MSE越小越好。然而，迴歸樹的介面score返回的是R平方，並不是MSE。R平方被定義如下：　　其中u是殘差平方和（MSE * N），v是總平方和，N是樣本數量，i是每一個數據樣本，fifi是模型迴歸出的數值，yi是樣本點i實際的數值標籤。y帽是真實數值標籤的平均數。R平方可以為正為負（如果模型的殘差平方和遠遠大於模型的總平方和，模型非常糟糕，R平方就會為負），而均方誤差永遠為正。　　值得一提的是，雖然均方誤差永遠為正，但是sklearn當中使用均方誤差作為評判標準時，卻是計算”負均方誤差“（neg_mean_squared_error）。

這是因為sklearn在計算模型評估指標的時候，會考慮指標本身的性質，均方誤差本身是一種誤差，所以被sklearn劃分為模型的一種損失(loss)，因此在sklearn當中，都以負數表示。真正的均方誤差MSE的數值，其實就是neg_mean_squared_error去掉負號的數字。 簡單看看回歸樹是怎樣工作的

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

1 重要引數，屬性及介面

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

機器學習sklearn（75）：演算法例項（三十二）迴歸（四）線性迴歸大家族（二）多元線性迴歸LinearRegression

機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

機器學習sklearn（78）：演算法例項（三十五）迴歸（七）線性迴歸大家族（五）多重共線性：嶺迴歸與Lasso（二）Lasso

機器學習sklearn（85）：演算法例項（42）分類（21）樸素貝葉斯（四）不同分佈下的貝葉斯（三）多項式樸素貝葉斯以及其變化

併發程式設計學習筆記（三十四、執行緒池原始碼三，執行緒池狀態）

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

機器學習sklearn（76）：演算法例項（三十三）迴歸（五）線性迴歸大家族（三）迴歸類的模型評估指標

機器學習sklearn（83）：演算法例項（40）分類（19）樸素貝葉斯（二）不同分佈下的貝葉斯（一）高斯樸素貝葉斯GaussianNB

機器學習sklearn（86）：演算法例項（43）分類（22）樸素貝葉斯（五）貝葉斯分類器做文字分類

機器學習sklearn（十二）：特徵工程（三）特徵組合與交叉（一）多項式特徵

機器學習sklearn（十四）：特徵工程（五）特徵編碼（二）特徵雜湊(二)

機器學習sklearn（十七）：特徵工程（八）特徵選擇（三）卡方選擇（二）卡方檢驗

機器學習sklearn（十八）：特徵工程（九）特徵編碼（三）類別特徵編碼（一）標籤編碼 LabelEncoder

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

1 重要引數，屬性及介面

相關推薦