論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》
阿新 • • 發佈:2019-01-31
《電腦科學》 2010年
部分摘要:指出了該演算法的取指偏向性以及運算效率不高等缺點,在此基礎上提出了改進的ID3演算法,該演算法通過引入先驗知識度引數,有效克服ID3演算法中的取值偏向性和運算效率不高等問題。
演算法改進:針對傳統的ID3演算法的缺點與不足進行以下三點嘗試性的改進。
(1) 引入權重因子m,設屬性A有n種取值,那麼m=1/n(可根據經驗設定);
則G(A)=[I(p,n)-E(A)]*m
(2) 定義函式H(p,1-p)=-p*log(p)-(1-p)log(1-p), 【其中logx以2為底】;
(3) 事後剪枝;自下而上檢查內部節點,如果子樹產生的錯誤大於葉節點表示代替它所產生的錯誤,就剪掉子樹;
評價:
客戶流失評價矩陣:
預測流失 |
預測不流失 |
合計 |
|
實際流失 |
TP |
FN |
TP+FN |
實際不流失 |
FP |
TN |
FP+TN |
合計 |
TP+FP |
FN+TN |
TP+FN+FP+TN |
TP(True Position);FP(False Position);
FN(False Negatives);TN(True Negatives)
預測命中率=*100%
預測覆蓋率=*100%
預測命中率是描述模型精確度的指標(在本文中是預測流失中實際流失的比例)
預測覆蓋率是描述模型普適性的指標(本文中是實際流失中預測正確的比例)
實驗結果對比:
取2009年5月份前的歷史資料,隨機抽取2000條記錄進行建模,預測模型對訓練集的預測結果:
預測流失 |
預測不流失 |
合計 |
|
實際流失 |
304 |
60 |
364 |
實際不流失 |
20 |
1616 |
1636 |
合計 |
324 |
1676 |
2000 |
預測命中率=*100%=93.33%
預測覆蓋率=*100%=83.62%
取2009年5月份的歷史資料,隨機抽取2000條記錄進行預測,則模型對測試集的預測結果:
預測流失 |
預測不流失 |
合計 |
|
實際流失 |
252 |
98 |
348 |
實際不流失 |
106 |
1548 |
1652 |
合計 |
358 |
1642 |
2000
|