大資料應用與管理3:分類分析
阿新 • • 發佈:2021-08-02
3、分類分析
3.1實驗說明
對給定資料集《電信客戶流失預測.xlsx》利用SPSS Modeler軟體進行資料處理,分別利用決策樹與KNN兩種方法對資料進行分析.分析不同因素對於分類的重要性,並能對給定的使用者A(與2中使用者A相同)利用決策樹或者KNN判斷其是否會流失。
3.2實驗步驟
請附SPSS Modeler所建模型截圖以及模型輸出結果截圖。
模型截圖:
模型輸出結果截圖:
3.3結果分析
(1)請分析決策樹結果中各個變數的重要性,決策樹模型的準確度,並儲存模型形成的決策規則以及決策樹圖。對於使用者A(與2相同),根據決策規則,判斷其是或否為流失使用者。
答:
重要性變數從大到小依次為InternetService,Tenure,TotalCharges.在訓練集上正確率為80.84%,在測試集上為79.37%。
決策規則
InternetService = 0.000 [ 模式:0 ] => 0.0
InternetService = 1.000 [ 模式:0 ]
TotalCharges <= 141.600 [ 模式:1 ] => 1.0
TotalCharges > 141.600 [ 模式:0 ] => 0.0
InternetService = 2.000 [ 模式:0 ]
tenure <= 19 [ 模式:1 ] => 1.0
tenure > 19 [ 模式:0 ] => 0.0
A使用者為流失客戶。
(2)請分析KNN模型分類時對於K的選擇,對比KNN模型與決策樹模型在訓練集和測試集上的準確度。
答:K=5時,訓練集上效果最好。訓練集在KNN模型中正確率高,測試集在決策樹模型中正確率高。