機器學習系列：（五）決策樹——非線性迴歸與分類

阿新 • • 發佈：2019-01-21

和猜猜看一樣，決策樹也是通過對解釋變數序列的逐條測試獲取響應變數結果的。那麼，哪個解釋變數應該先測試？直覺觀察會發現，解釋變數集合包含所有貓或者所有狗的測試，比既包含貓又包含狗的解釋變數集合的測試要好。如果子整合員種類不同，我們還是不能確定種類。我們還需要避免建立那種測試，把單獨的一隻貓或一條狗分離出去，這種做法類似於猜猜看問題中前幾輪就問非常具體的問題。更一般的情形是，這些測試極少可以分出一個樣本的種類，也不能降低分類不確定性。能夠降低分類不確定性的測試通常都是最好的測試。我們通常用熵（entropy）來度量資訊的不確定性。

以位元（bits）為計量單位，熵量化了一個變數的不確定性。熵計算公式如下所示：

$H(x)=-\sum_{i=1}^{n}P(x_{i})log_{b}P(x_{i})$

其中，n是樣本的數量，P(xi)是第i個樣本的概率。b一般取2，e或10。因為對數函式中真數小於1則對數值為0，因此，公式前面加符號使熵為正數。

例如，一個硬幣投擲一次事件發生後一般有兩種可能：正面或反面。正面朝上的概率是0.5，反面朝上的概率也是0.5。那麼一個硬幣投擲一次的結果這個變數的熵：

$H(x)=-(0.5log_{2}0.5+0.5log_{2}0.5)=1$

也就是說，兩個等概率的可能值，正面和反面，只需要一個位元。如果是兩個硬幣投擲一次事件發生後一般有四種可能：正面正面，正面反面，反面反面，反面正面，每種可能的概率是0.25。其熵為：

H(X)=−(0.25log20.25×4)=2.0

如果硬幣的兩面相同，那麼表示其可能值的變數熵為0位元，也就是說，結果是確定的，變數再也不會產生新資訊量了。熵還可以用小數值表示。比如，一個不正常的硬幣，其正反面的材質不同，一邊重一邊輕。導致其投擲後正面朝上的概率0.8，反面朝上概率0.2。那麼其熵為：

H(X)=−(0.8log20.8+0.2log20.2)=0.721928095

一個不正常的硬幣投擲後其結果的熵是一個小數。雖然兩種結果都有可能，但是因為其中一種可能性更大，所有不確定性減小了。

機器學習系列：（五）決策樹——非線性迴歸與分類

機器學習系列：（五）決策樹——非線性迴歸與分類

機器學習系列：（三）特徵提取與處理

機器學習系列：（九）從感知器到支援向量機

機器學習系列：（六）K-Means聚類

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

JVM調優系列：（五）JVM常用調試參數和工具

機器學習之旅（五）

機器學習（七）決策樹演算法研究與實現

Spring Boot乾貨系列：（五）開發Web應用之JSP篇

PWA(Progressive Web App)入門系列：（五）Web Worker

spark機器學習筆記：（三）用Spark Python構建推薦系統

統計學學習筆記：（五）正態分佈

RabbitMQ學習之：（五）Exchange Type （轉貼+我的評論）

spark機器學習筆記：（六）用Spark Python構建迴歸模型

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

spark機器學習筆記：（四）用Spark Python構建分類模型（上）

JVM調優系列：（五）JVM常用除錯引數和工具

資料預處理系列：（五）分類變數處理

深度學習進階（五）--卷積神經網路與深度置信網路以及自動編碼初識（補昨天部落格更新）

機器學習系列：（五）決策樹——非線性迴歸與分類

相關推薦