1. 程式人生 > 其它 >大資料應用與管理3:分類分析

大資料應用與管理3:分類分析

3、分類分析

3.1實驗說明

對給定資料集《電信客戶流失預測.xlsx》利用SPSS Modeler軟體進行資料處理,分別利用決策樹與KNN兩種方法對資料進行分析.分析不同因素對於分類的重要性,並能對給定的使用者A(與2中使用者A相同)利用決策樹或者KNN判斷其是否會流失。

3.2實驗步驟

請附SPSS Modeler所建模型截圖以及模型輸出結果截圖。

模型截圖:

模型輸出結果截圖:

3.3結果分析

(1)請分析決策樹結果中各個變數的重要性,決策樹模型的準確度,並儲存模型形成的決策規則以及決策樹圖。對於使用者A(與2相同),根據決策規則,判斷其是或否為流失使用者。

答:

重要性變數從大到小依次為InternetService,Tenure,TotalCharges.在訓練集上正確率為80.84%,在測試集上為79.37%。

決策規則

InternetService = 0.000 [ 模式:0 ] => 0.0

InternetService = 1.000 [ 模式:0 ]

TotalCharges <= 141.600 [ 模式:1 ] => 1.0

TotalCharges > 141.600 [ 模式:0 ] => 0.0

InternetService = 2.000 [ 模式:0 ]

tenure <= 19 [ 模式:1 ] => 1.0

tenure > 19 [ 模式:0 ] => 0.0

A使用者為流失客戶。

(2)請分析KNN模型分類時對於K的選擇,對比KNN模型與決策樹模型在訓練集和測試集上的準確度。

答:K=5時,訓練集上效果最好。訓練集在KNN模型中正確率高,測試集在決策樹模型中正確率高。