機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

阿新 • • 發佈：2021-06-22

1 概述 1.1 決策樹是如何工作的　　決策樹（Decision Tree）是一種非引數的有監督學習方法，它能夠從一系列有特徵和標籤的資料中總結出決策規則，並用樹狀圖的結構來呈現這些規則，以解決分類和迴歸問題。決策樹演算法容易理解，適用各種資料，在解決各種問題時都有良好表現，尤其是以樹模型為核心的各種整合演算法，在各個行業和領域都有廣泛的應用。　　我們來簡單瞭解一下決策樹是如何工作的。決策樹演算法的本質是一種圖結構，我們只需要問一系列問題就可以對資料進行分類了。比如說，來看看下面這組資料集，這是一系列已知物種以及所屬類別的資料：我們現在的目標是，將動物們分為哺乳類和非哺乳類。那根據已經收集到的資料，決策樹演算法為我們算出了下面的這棵決策樹：　　假如我們現在發現了一種新物種Python，它是冷血動物，體表帶鱗片，並且不是胎生，我們就可以通過這棵決策樹來判斷它的所屬類別。　　可以看出，在這個決策過程中，我們一直在對記錄的特徵進行提問。最初的問題所在的地方叫做根節點，在得到結論前的每一個問題都是中間節點，而得到的每一個結論（動物的類別）都叫做葉子節點。 決策樹演算法的核心是要解決兩個問題： 1）如何從資料表中找出最佳節點和最佳分枝？ 2）如何讓決策樹停止生長，防止過擬合？ 　　幾乎所有決策樹有關的模型調整方法，都圍繞這兩個問題展開。這兩個問題背後的原理十分複雜，我們會在講解模型引數和屬性的時候為大家簡單解釋涉及到的部分。在這門課中，我會盡量避免讓大家太過深入到決策樹複雜的原理和數學公式中（儘管決策樹的原理相比其他高階的演算法來說是非常簡單了），這門課會專注於實踐和應用。如果大家希望理解更深入的細節，建議大家在聽這門課之前還是先去閱讀和學習一下決策樹的原理。 1.2 sklearn中的決策樹　　模組sklearn.tree sklearn中決策樹的類都在”tree“這個模組之下。這個模組總共包含五個類： sklearn的基本建模流程在那之前，我們先來了解一下sklearn建模的基本流程。在這個流程下，分類樹對應的程式碼是：

from 
 sklearn import tree #匯入需要的模組
clf = tree.DecisionTreeClassifier()   #例項化
clf = clf.fit(X_train,y_train) #用訓練集資料訓練模型
result = clf.score(X_test,y_test) #匯入測試集，從介面中呼叫需要的資訊

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

機器學習sklearn（58）：演算法例項（十五）分類（八）邏輯迴歸（三）linear_model.LogisticRegression(二) 重要引數

機器學習sklearn（75）：演算法例項（三十二）迴歸（四）線性迴歸大家族（二）多元線性迴歸LinearRegression

機器學習sklearn（78）：演算法例項（三十五）迴歸（七）線性迴歸大家族（五）多重共線性：嶺迴歸與Lasso（二）Lasso

機器學習sklearn（三十四）：演算法例項（三）迴歸（一）決策樹迴歸（一） DecisionTreeRegressor

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

機器學習sklearn（三十九）：演算法例項（八）分類（四）隨機森林分類器 RandomForestRegressor

機器學習sklearn（四十）：演算法例項（九）迴歸（二）隨機森林迴歸器 RandomForestRegressor

機器學習sklearn（57）：演算法例項（十四）分類（七）邏輯迴歸（二）linear_model.LogisticRegression(一) 重要引數

機器學習sklearn（72）：演算法例項（二十九）分類（十六）SVM（七）sklearn.svm.SVC（六）使用SVC時的其他考慮（選）

機器學習sklearn（77）：演算法例項（三十四）迴歸（六）線性迴歸大家族（四）多重共線性：嶺迴歸與Lasso（一）嶺迴歸

併發程式設計學習筆記（三十二、執行緒池原始碼一，工作執行緒Worker）

機器學習sklearn（76）：演算法例項（三十三）迴歸（五）線性迴歸大家族（三）迴歸類的模型評估指標

機器學習sklearn（83）：演算法例項（40）分類（19）樸素貝葉斯（二）不同分佈下的貝葉斯（一）高斯樸素貝葉斯GaussianNB

機器學習sklearn（85）：演算法例項（42）分類（21）樸素貝葉斯（四）不同分佈下的貝葉斯（三）多項式樸素貝葉斯以及其變化

pytest（三十二）--自定義用例順序（pytest-ordering）

大資料實戰（三十九）：電商數倉（三十二）之使用者行為資料倉庫（十八）每個使用者累計訪問次數

Selenium3+python3自動化（三十二）--4類32種定位方法(find_element_by_xx, find_elements_by_xx, find_element)

實時電商數倉（三十二）之實時計算（十一）dws層（三）訂單明細實付金額分攤（二）儲存到clickhouse

Flink基礎（三十二）：FLINK SQL(八)DESCRIBE 語句

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

相關推薦