1. 程式人生 > 實用技巧 >機器學習之決策樹和隨機森林

機器學習之決策樹和隨機森林

一、迴歸實踐程式碼知識點總結

sklearn常用庫函式總結:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso, Ridge
from sklearn.model_selection import GridSearchCV
程式碼解釋總結:
np.set_printoptions(suppress=True),顯示數字,預設是科學計數法,suppress=True表示不用科學計數法顯示資料;

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=1)
網格搜尋: GridSearchCV(model, param_grid={‘alpha’: alpha_can}, cv=5)
model_name.score(x_test, y_test)

二、決策樹和隨機森林

條件熵定義:H(X,Y) — H(X)
(X,Y)發生所包含的熵,減去X單獨發生包含的熵:在X發生的前提下,Y發生”新“帶來的熵;
該式子定義為X發生前提下,Y的熵:條件熵H(Y|X);
推導條件熵的定義式:
在這裡插入圖片描述
決策樹定義
決策樹是一種樹型結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別;

決策樹學習採用的是自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一根熵值下降最快的樹,到葉子節點處的熵值為零,此時每個葉節點中的例項都屬於同一類;
決策樹特點
有監督學習;從一個無序、無規則的事物(概念)中推理出決策樹表示的分類規則;最大優點是可以自學習;
決策樹生成演算法
生成關鍵是,當前狀態下選擇哪個屬性作為分類依據,根據不同的目標函式,建立決策樹主要有:ID3,C4,5,CART等演算法;
資訊增益:
在這裡插入圖片描述
相關符號
在這裡插入圖片描述
資訊增益的計算方法:
在這裡插入圖片描述
經驗條件熵:
在這裡插入圖片描述
資訊增益率
在這裡插入圖片描述