1. 程式人生 > 其它 >IBM SPSS Modeler分類決策樹C5.0模型分析空氣汙染物資料

IBM SPSS Modeler分類決策樹C5.0模型分析空氣汙染物資料

全文連結:http://tecdat.cn/?p=30752

原文出處:拓端資料部落公眾號

如何通過方法有效的分析海量資料,並從其中找到有利的資訊已經成為一種趨勢。而決策樹演算法是目前在進行資料分析時很常用的方法。本文將使用IBM SPSS Modeler進行實踐,介紹決策樹在空氣汙染預測領域的實踐案例。

分類預測模型的構建流程,具體步驟如下:

(1)資料處理 :稽核資料,過濾掉含有缺失值的資料記錄。

(2)劃分資料集,訓練集70%,測試集30% 。

(3)構建模型時的引數設定 。

(4)構建模型:構建C5.0模型。

(5)結果評估,用測試集資料執行得到的執行結果,對模型採用命中率評估兩個模型的預測效果。

加入表節點

讀取資料

新增“抽樣”節點

隨機抽取70%的樣本作為訓練集

“C5.0”節點

生成的決策樹模型,並對測試資料進行預測

得到測試資料的分類結果的準確度

預測分類結果

有88.1%的測試樣本的預測值和實際值相符。

並且得到如下的決策樹模型:

其中變數的重要性如下圖所示:

從結果可以看到,首要汙染物型別與AQI、NO2還有O3等變數有關。其中AQI對首要汙染物型別的結果具有最重要的影響。

C5.0是在C4.5的基礎上發展起來的。C5.0 演算法是用資訊增益(根節點的熵減去該拆分的熵)來度量拆分純度的。第一次拆分某一欄位,劃分出相對應的樣本子集。然後繼續拆分這些樣本子集,一般情況下使用的是另一欄位進行拆分,一直迴圈這樣一個過程,直到滿足拆分終止條件。最後,若生成的樹出現過度擬合的狀況,則要修剪那些缺乏價值的樣本子集。


最受歡迎的見解

1.PYTHON使用者流失資料探勘:建立邏輯迴歸、XGBOOST、隨機森林、決策樹、支援向量機、樸素貝葉斯模型和KMEANS聚類使用者畫像

2.R語言基於樹的方法:決策樹,隨機森林

3.python中使用scikit-learn和pandas決策樹

4.機器學習:在SAS中執行隨機森林資料分析報告

5.R語言用隨機森林和文字挖掘提高航空公司客戶滿意度

6.機器學習助推快時尚精準銷售時間序列

7.用機器學習識別不斷變化的股市狀況——隱馬爾可夫模型的應用

8.python機器學習:推薦系統實現(以矩陣分解來協同過濾)

9.python中用pytorch機器學習分類預測銀行客戶流失