1. 程式人生 > >統計學習筆記10

統計學習筆記10

決策樹

定義:

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點與有向邊組成;其中結點有兩種型別,一種是內部結點,另一種是葉結點,內部結點表示特徵和屬性,葉結點表示一個類
在這裡插入圖片描述

決策樹的if-then規則:

決策樹可以看作一個if-then規則的集合,在決策樹中由根結點到葉結點的每一條路徑構成一條規則,每條路徑中的內部結點的特徵或屬性對應規則的條件,而葉結點的類對應規則的結論;決策樹的路徑或其所對應的if-then規則集合是互斥且完備的,即是每一例項有且只被一條路徑或規則所覆蓋(注:這裡所說的覆蓋指的是例項的特徵與路徑上的特徵一致或例項滿足規則的條件)

決策樹與條件概率分佈:

將特徵空間劃分為互不相交的單元或區域,在每一個區域定義一個類的概率分佈就構成了一個條件概率分佈,其中決策樹的每一條路徑就代表一個區域;各葉結點的條件概率分佈往往偏向於某一類, 決策樹分類時將該結點的例項強行分類到條件概率較大的那一類去
在這裡插入圖片描述
在這裡插入圖片描述

決策樹的學習:

決策樹學習的目標是根據給定的訓練資料集構建一個決策樹模型,使它能夠對例項正確地分類

決策樹學習的本質是從訓練資料集中歸納出一條分類規則,然而,與資料集不相矛盾的決策樹可能有多個,也可能不存在;我們要做的是找出一個與訓練資料集矛盾較少的決策樹,同時具有很好的泛化能力

從條件概率的角度來看,決策樹學習是由訓練資料集估計條件概率模型

決策樹學習用損失函式表示這一目標,當損失函式確定後,學習問題就變為在損失函式的意義下選擇最優決策樹的問題

決策樹的學習演算法通常是遞迴地選擇最優特徵,並根據該特徵對訓練資料進行分割;開始時,構建根結點,將所有的資料集放在根結點,選擇一個最優特徵,按照這一特徵將資料集分割成子集,使得各子集在當前條件下有一個最優的分類;如果所有子集可以基本正確地分類,那麼就構建葉結點,並將這些子集分到所對應的葉結點中去;如果還有子集不能正確分類,那麼就對這些子集選擇新的最優特徵,繼續進行分割,構建相應的結點,如此遞迴下去,直到所有的子集被正確的分類,或者是找不到合適的特徵。

然而,以上方法生成的決策樹可能對訓練資料有很好的分類能力,但對未知資料卻未必有很好的分類能力,即發生過擬合,這就需要我們對已生成的樹進行自下而上地剪枝