IBM SPSS Modeler分類決策樹C5.0模型分析空氣汙染物資料

阿新 • • 發佈：2022-12-06

全文連結：http://tecdat.cn/?p=30752

原文出處：拓端資料部落公眾號

如何通過方法有效的分析海量資料，並從其中找到有利的資訊已經成為一種趨勢。而決策樹演算法是目前在進行資料分析時很常用的方法。本文將使用IBM SPSS Modeler進行實踐，介紹決策樹在空氣汙染預測領域的實踐案例。

分類預測模型的構建流程，具體步驟如下：

（1）資料處理：稽核資料，過濾掉含有缺失值的資料記錄。

（2）劃分資料集，訓練集70%，測試集30% 。

（3）構建模型時的引數設定。

（4）構建模型：構建C5.0模型。

（5）結果評估，用測試集資料執行得到的執行結果，對模型採用命中率評估兩個模型的預測效果。

加入表節點

讀取資料

新增“抽樣”節點

隨機抽取70%的樣本作為訓練集

“C5.0”節點

生成的決策樹模型，並對測試資料進行預測

得到測試資料的分類結果的準確度

預測分類結果

有88.1%的測試樣本的預測值和實際值相符。

並且得到如下的決策樹模型：

其中變數的重要性如下圖所示：

從結果可以看到，首要汙染物型別與AQI、NO2還有O3等變數有關。其中AQI對首要汙染物型別的結果具有最重要的影響。

C5.0是在C4.5的基礎上發展起來的。C5.0 演算法是用資訊增益（根節點的熵減去該拆分的熵）來度量拆分純度的。第一次拆分某一欄位，劃分出相對應的樣本子集。然後繼續拆分這些樣本子集，一般情況下使用的是另一欄位進行拆分，一直迴圈這樣一個過程，直到滿足拆分終止條件。最後，若生成的樹出現過度擬合的狀況，則要修剪那些缺乏價值的樣本子集。

最受歡迎的見解

1.PYTHON使用者流失資料探勘：建立邏輯迴歸、XGBOOST、隨機森林、決策樹、支援向量機、樸素貝葉斯模型和KMEANS聚類使用者畫像

2.R語言基於樹的方法：決策樹，隨機森林

3.python中使用scikit-learn和pandas決策樹

4.機器學習：在SAS中執行隨機森林資料分析報告

5.R語言用隨機森林和文字挖掘提高航空公司客戶滿意度

6.機器學習助推快時尚精準銷售時間序列

7.用機器學習識別不斷變化的股市狀況——隱馬爾可夫模型的應用

8.python機器學習：推薦系統實現（以矩陣分解來協同過濾）

9.python中用pytorch機器學習分類預測銀行客戶流失

IBM SPSS Modeler分類決策樹C5.0模型分析空氣汙染物資料

全文連結：http://tecdat.cn/?p=30752

原文出處：拓端資料部落公眾號

加入表節點

讀取資料

新增“抽樣”節點

“C5.0”節點

預測分類結果

IBM SPSS Modeler分類決策樹C5.0模型分析空氣汙染物資料

機器學習sklearn（三十二）：演算法例項（一）分類（一）分類決策樹（一）簡介

機器學習sklearn（三十七）：演算法例項（六）分類（四）分類決策樹（四）Bonus Chapter I 例項：分類樹在合成數集上的表現

拓端tecdat|SAS分類決策樹預測貸款申請評分剪枝和結果視覺化

ENVI擴充套件工具：See5.0決策樹自動分類

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

基於Python的決策樹分類器與剪枝

機器學習演算法（六）：基於決策樹的分類預測

R語言用邏輯迴歸、決策樹和隨機森林對信貸資料集進行分類預測

決策樹分類

r語言 C4.5 剪枝是用什麼演算法_決策樹分類演算法的原理介紹及應用

【Basic】決策樹分類演算法

分類分析--隨機森林（基於傳統決策樹、基於條件推斷樹）

決策樹演算法2-決策樹分類原理2.2-資訊增益

決策樹演算法2-決策樹分類原理2.3-資訊增益率

資料預處理——分類(線性可分SVM與決策樹)

決策樹演算法對鳶尾花資料集進行分類

拓端tecdat：Python整合機器學習：用AdaBoost、決策樹、邏輯迴歸整合模型分類和迴歸和網格搜尋超引數優化

基於 R 語言和 SPSS 的決策樹演算法介紹及應用

R完成--決策樹分類一個使用rpart完成決策樹分類的例子如下：

IBM SPSS Modeler分類決策樹C5.0模型分析空氣汙染物資料

全文連結：http://tecdat.cn/?p=30752

原文出處：拓端資料部落公眾號

加入表節點

讀取資料

新增“抽樣”節點

“C5.0”節點

預測分類結果

相關推薦