統計學習筆記10

阿新 • • 發佈：2018-11-26

決策樹

定義：

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點與有向邊組成；其中結點有兩種型別，一種是內部結點，另一種是葉結點，內部結點表示特徵和屬性，葉結點表示一個類
在這裡插入圖片描述

決策樹的if-then規則：

決策樹可以看作一個if-then規則的集合，在決策樹中由根結點到葉結點的每一條路徑構成一條規則，每條路徑中的內部結點的特徵或屬性對應規則的條件，而葉結點的類對應規則的結論；決策樹的路徑或其所對應的if-then規則集合是互斥且完備的，即是每一例項有且只被一條路徑或規則所覆蓋（注：這裡所說的覆蓋指的是例項的特徵與路徑上的特徵一致或例項滿足規則的條件）

決策樹與條件概率分佈：

將特徵空間劃分為互不相交的單元或區域，在每一個區域定義一個類的概率分佈就構成了一個條件概率分佈，其中決策樹的每一條路徑就代表一個區域；各葉結點的條件概率分佈往往偏向於某一類，決策樹分類時將該結點的例項強行分類到條件概率較大的那一類去
在這裡插入圖片描述

決策樹的學習：

決策樹學習的目標是根據給定的訓練資料集構建一個決策樹模型，使它能夠對例項正確地分類

決策樹學習的本質是從訓練資料集中歸納出一條分類規則，然而，與資料集不相矛盾的決策樹可能有多個，也可能不存在；我們要做的是找出一個與訓練資料集矛盾較少的決策樹，同時具有很好的泛化能力

從條件概率的角度來看，決策樹學習是由訓練資料集估計條件概率模型

決策樹學習用損失函式表示這一目標，當損失函式確定後，學習問題就變為在損失函式的意義下選擇最優決策樹的問題

決策樹的學習演算法通常是遞迴地選擇最優特徵，並根據該特徵對訓練資料進行分割；開始時，構建根結點，將所有的資料集放在根結點，選擇一個最優特徵，按照這一特徵將資料集分割成子集，使得各子集在當前條件下有一個最優的分類；如果所有子集可以基本正確地分類，那麼就構建葉結點，並將這些子集分到所對應的葉結點中去；如果還有子集不能正確分類，那麼就對這些子集選擇新的最優特徵，繼續進行分割，構建相應的結點，如此遞迴下去，直到所有的子集被正確的分類，或者是找不到合適的特徵。

然而，以上方法生成的決策樹可能對訓練資料有很好的分類能力，但對未知資料卻未必有很好的分類能力，即發生過擬合，這就需要我們對已生成的樹進行自下而上地剪枝

統計學習筆記10

決策樹

定義：

決策樹的if-then規則：

決策樹與條件概率分佈：

決策樹的學習：

統計學習筆記10

SRS學習筆記10-SrsConnection及其子類分析

Android:日常學習筆記(10)———使用LitePal操作數據庫

mybatis學習筆記(10)-一對一查詢

MySQL學習筆記10復制錯誤處理(一)表已存在的問題

python+selenium個人學習筆記10-調用JavaScript和截圖

【python】學習筆記10-ddt數據驅動

Linux學習筆記10——管道和重定義

Python學習筆記10--unittest參數化

Python+Selenium學習筆記10 - send_keys上傳文件

匯編學習筆記(10)-IO端口與指令

設計模式：學習筆記(10)——適配器模式

Dubbo學習筆記10：Dubbo服務消費方啟動流程源碼分析

Kali學習筆記10：端口掃描詳解（下）

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

rosserial_arduino學習筆記10《Servo Controller Example》

作用域運算子 “::”（C++學習筆記 10）

Python 學習筆記10 - 實戰：微信遙控電腦

java學習筆記(10)

SpringBoot學習筆記(10)-----SpringBoot中使用Redis/Mongodb和快取Ehcache快取和redis快取

統計學習筆記10

決策樹

定義：

決策樹的if-then規則：

決策樹與條件概率分佈：

決策樹的學習：

相關推薦