機器學習之決策樹和隨機森林
阿新 • • 發佈:2020-10-21
一、迴歸實踐程式碼知識點總結
sklearn常用庫函式總結:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso, Ridge
from sklearn.model_selection import GridSearchCV
程式碼解釋總結:
np.set_printoptions(suppress=True),顯示數字,預設是科學計數法,suppress=True表示不用科學計數法顯示資料;
網格搜尋: GridSearchCV(model, param_grid={‘alpha’: alpha_can}, cv=5)
model_name.score(x_test, y_test)
二、決策樹和隨機森林
條件熵定義:H(X,Y) — H(X)
(X,Y)發生所包含的熵,減去X單獨發生包含的熵:在X發生的前提下,Y發生”新“帶來的熵;
該式子定義為X發生前提下,Y的熵:條件熵H(Y|X);
推導條件熵的定義式:
決策樹定義
決策樹是一種樹型結構,其中每個內部節點表示在一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別;
決策樹特點
有監督學習;從一個無序、無規則的事物(概念)中推理出決策樹表示的分類規則;最大優點是可以自學習;
決策樹生成演算法
生成關鍵是,當前狀態下選擇哪個屬性作為分類依據,根據不同的目標函式,建立決策樹主要有:ID3,C4,5,CART等演算法;
資訊增益:
相關符號
資訊增益的計算方法:
經驗條件熵:
資訊增益率