sklearn中隨機森林的引數

阿新 • • 發佈：2019-01-24

一：sklearn中決策樹的引數：

1，criterion: ”gini” or “entropy”(default=”gini”)是計算屬性的gini(基尼不純度)還是entropy(資訊增益)，來選擇最合適的節點。

2，splitter: ”best” or “random”(default=”best”)隨機選擇屬性還是選擇不純度最大的屬性，建議用預設。

3，max_features: 選擇最適屬性時劃分的特徵不能超過此值。

當為整數時，即最大特徵數；當為小數時，訓練集特徵數*小數；
if “auto”, then max_features=sqrt(n_features).
If “sqrt”, thenmax_features=sqrt(n_features).
If “log2”, thenmax_features=log2(n_features).
If None, then max_features=n_features.

4，max_depth: (default=None)設定樹的最大深度，預設為None，這樣建樹時，會使每一個葉節點只有一個類別，或是達到min_samples_split。

5，min_samples_split:根據屬性劃分節點時，每個劃分最少的樣本數。

6，min_samples_leaf:葉子節點最少的樣本數。

7，max_leaf_nodes: (default=None)葉子樹的最大樣本數。

8，min_weight_fraction_leaf: (default=0) 葉子節點所需要的最小權值

9，verbose:(default=0) 是否顯示任務程序

二：隨機森林特有的引數：

1，n_estimators=10：決策樹的個數，越多越好，但是效能就會越差，至少100左右（具體數字忘記從哪裡來的了）可以達到可接受的效能和誤差率。

2，bootstrap=True：是否有放回的取樣。

3，oob_score=False：oob（out of band，帶外）資料，即：在某次決策樹訓練中沒有被bootstrap選中的資料。多單個模型的引數訓練，我們知道可以用cross validation（cv）來進行，但是特別消耗時間，而且對於隨機森林這種情況也沒有大的必要，所以就用這個資料對決策樹模型進行驗證，算是一個簡單的交叉驗證。效能消耗小，但是效果不錯。

4，n_jobs

=1：並行job個數。這個在ensemble演算法中非常重要，尤其是bagging（而非boosting，因為boosting的每次迭代之間有影響，所以很難進行並行化），因為可以並行從而提高效能。1=不併行；n：n個並行；-1：CPU有多少core，就啟動多少job。

5，warm_start=False：熱啟動，決定是否使用上次呼叫該類的結果然後增加新的。

6，class_weight=None：各個label的權重。

三：進行預測可以有幾種形式：

1，predict_proba(x)：給出帶有概率值的結果。每個點在所有label的概率和為1.

2，predict(x)：直接給出預測結果。內部還是呼叫的predict_proba()，根據概率的結果看哪個型別的預測值最高就是哪個型別。

3，predict_log_proba(x)：和predict_proba基本上一樣，只是把結果給做了log()處理。

附 Random Forest和Gradient Tree Boosting引數詳解，圖片來源：https://www.zhihu.com/question/34470160

通過總結模型調參常見的問題，我們可以把模型的引數分為4類：目標類、效能類、效率類和附加類。下表詳細地展示了4個模型引數的意義：

sklearn中隨機森林的引數

一：sklearn中決策樹的引數：

二：隨機森林特有的引數：

三：進行預測可以有幾種形式：

sklearn中隨機森林的引數

Sklearn-RandomForest隨機森林

隨機森林引數理解與調優

隨機森林在sklearn中的實現

第六講：決策樹+隨機森林+AdaBoost（中）

在OpenCV中實現決策樹和隨機森林

sklearn:隨機森林的OOB錯誤

sklearn：影象畫素與平行隨機森林的重要性

Python隨機森林模型RandomForestClassifier引數說明

scikit-learn /sklearn ：整合學習之隨機森林分類器（Forests of Randomized Tree）官方檔案翻譯

機器學習筆記之七——邏輯迴歸簡單推導、softmax簡單理解以及sklearn中邏輯迴歸常用引數解釋

整合學習中boosting、bagging、隨機森林演算法的介紹

python實現隨機森林（RF）的引數尋優

計算機視覺：隨機森林演算法在人體識別中的應用

sklearn隨機森林調參小結

機器學習演算法之隨機森林（1）pyspark.mllib中的RF

鳶尾花決策樹/隨機森林例項——sklearn

python包sk-learn中的隨機森林

SKLearn中SVM引數自動選擇的最簡單示例（使用GridSearchCV）

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

sklearn中隨機森林的引數

一：sklearn中決策樹的引數：

二：隨機森林特有的引數：

三：進行預測可以有幾種形式：

相關推薦